用 YAML 定义评估,用数据驱动决策。支持 pass@k 可靠性度量、8 种评分器、4 种 Agent 适配器,让 AI Agent 的能力评估变得简单、可靠、可复现。
$curl -fsSL https://raw.githubusercontent.com/wallezhang/agent-eval/main/install.sh | bash专为 AI Agent 评估设计的完整工具链
使用对数空间算法精确计算能力上限和可靠性,为 Agent 生产部署提供统计学依据。
exact_match、contains、regex、json_match、command、llm、pairwise、constraint — 从简单字符串匹配到 LLM 评判。
原生支持 OpenAI、Anthropic、HTTP 和 Command,注册模式让自定义适配器只需一个文件。
自动提取 Token 用量并估算成本,P50/P90/P99 延迟百分位用于 SLA 评估。
基于文件的响应缓存避免重复 API 调用,断点续评从中断处无缝恢复。
通过 --fail-under 阈值门禁控制合并,JSON 输出支持流水线自动化处理。
定义配置 → 编写任务 → 运行评估,就是这么简单
name: "coding-agent-eval"
agent:
type: openai
config:
model: gpt-4
api_key: ${OPENAI_API_KEY}
temperature: 0.0
defaults:
trials_per_task: 3
graders:
- type: contains
config:
ignore_case: true
execution:
concurrency: 4
rate_limit_rps: 5
timeout: 120s
output:
format: all
dir: ./results从 YAML 配置到可视化报告,完全自动化的评估流水线