AgentEval

用 YAML 定义评估，用数据驱动决策。支持 pass@k 可靠性度量、8 种评分器、4 种 Agent 适配器，让 AI Agent 的能力评估变得简单、可靠、可复现。

快速开始 GitHub

$curl -fsSL https://raw.githubusercontent.com/wallezhang/agent-eval/main/install.sh | bash

Terminal

$agent-eval run -c eval.yaml

核心能力

专为 AI Agent 评估设计的完整工具链

pass@k / pass^k 度量

使用对数空间算法精确计算能力上限和可靠性，为 Agent 生产部署提供统计学依据。

8 种内置评分器

exact_match、contains、regex、json_match、command、llm、pairwise、constraint — 从简单字符串匹配到 LLM 评判。

4 种 Agent 适配器

原生支持 OpenAI、Anthropic、HTTP 和 Command，注册模式让自定义适配器只需一个文件。

Token / 成本追踪

自动提取 Token 用量并估算成本，P50/P90/P99 延迟百分位用于 SLA 评估。

缓存与断点续评

基于文件的响应缓存避免重复 API 调用，断点续评从中断处无缝恢复。

CI/CD 集成

通过 --fail-under 阈值门禁控制合并，JSON 输出支持流水线自动化处理。

三步开始评估

定义配置 → 编写任务 → 运行评估，就是这么简单

配置

在 YAML 中定义 Agent、评分器和执行参数

定义任务

编写评估任务，指定预期输出和自定义评分器

运行分析

执行评估，获取包含可靠性指标的详细报告

name: "coding-agent-eval"

agent:
  type: openai
  config:
    model: gpt-4
    api_key: ${OPENAI_API_KEY}
    temperature: 0.0

defaults:
  trials_per_task: 3
  graders:
    - type: contains
      config:
        ignore_case: true

execution:
  concurrency: 4
  rate_limit_rps: 5
  timeout: 120s

output:
  format: all
  dir: ./results

内置评分器

Agent 适配器

报告格式

CGO 依赖

评估流程

从 YAML 配置到可视化报告，完全自动化的评估流水线

YAML

加载配置

解析 YAML，展开环境变量，应用默认值

Agent

创建 Agent

根据配置初始化 Agent 适配器

执行

运行试验

并发执行，支持速率限制

评分

应用评分器，计算加权分数

报告

生成报告

表格/JSON/HTML 及 pass@k 指标

开始评估你的 AI Agent

只需一个 YAML 文件，即可获得完整的评估报告、可靠性度量和成本追踪。

$curl -fsSL https://raw.githubusercontent.com/wallezhang/agent-eval/main/install.sh | bash

阅读文档 GitHub