Skip to content

AgentEval

用 YAML 定义评估,用数据驱动决策。支持 pass@k 可靠性度量、8 种评分器、4 种 Agent 适配器,让 AI Agent 的能力评估变得简单、可靠、可复现。

$curl -fsSL https://raw.githubusercontent.com/wallezhang/agent-eval/main/install.sh | bash
Terminal
$agent-eval run -c eval.yaml

核心能力

专为 AI Agent 评估设计的完整工具链

pass@k / pass^k 度量

使用对数空间算法精确计算能力上限和可靠性,为 Agent 生产部署提供统计学依据。

8 种内置评分器

exact_match、contains、regex、json_match、command、llm、pairwise、constraint — 从简单字符串匹配到 LLM 评判。

4 种 Agent 适配器

原生支持 OpenAI、Anthropic、HTTP 和 Command,注册模式让自定义适配器只需一个文件。

Token / 成本追踪

自动提取 Token 用量并估算成本,P50/P90/P99 延迟百分位用于 SLA 评估。

缓存与断点续评

基于文件的响应缓存避免重复 API 调用,断点续评从中断处无缝恢复。

CI/CD 集成

通过 --fail-under 阈值门禁控制合并,JSON 输出支持流水线自动化处理。

三步开始评估

定义配置 → 编写任务 → 运行评估,就是这么简单

01
配置
在 YAML 中定义 Agent、评分器和执行参数
02
定义任务
编写评估任务,指定预期输出和自定义评分器
03
运行分析
执行评估,获取包含可靠性指标的详细报告
name: "coding-agent-eval"

agent:
  type: openai
  config:
    model: gpt-4
    api_key: ${OPENAI_API_KEY}
    temperature: 0.0

defaults:
  trials_per_task: 3
  graders:
    - type: contains
      config:
        ignore_case: true

execution:
  concurrency: 4
  rate_limit_rps: 5
  timeout: 120s

output:
  format: all
  dir: ./results
0
内置评分器
0
Agent 适配器
0
报告格式
0
CGO 依赖

评估流程

从 YAML 配置到可视化报告,完全自动化的评估流水线

YAML
加载配置
解析 YAML,展开环境变量,应用默认值
Agent
创建 Agent
根据配置初始化 Agent 适配器
执行
运行试验
并发执行,支持速率限制
评分
评分
应用评分器,计算加权分数
报告
生成报告
表格/JSON/HTML 及 pass@k 指标

开始评估你的 AI Agent

只需一个 YAML 文件,即可获得完整的评估报告、可靠性度量和成本追踪。

$curl -fsSL https://raw.githubusercontent.com/wallezhang/agent-eval/main/install.sh | bash