Web UI
AgentEval 内置了基于浏览器的 Web UI,支持项目管理、配置编辑、实时进度的评测运行和结果查看。前端通过 go:embed 嵌入到单一二进制文件中,无需额外安装或单独启动前端进程。
启动服务
bash
agent-eval server在浏览器中打开 http://localhost:8080。服务会自动读取 ~/.agent-eval/projects.json 中注册的项目。
选项
| 标志 | 默认值 | 说明 |
|---|---|---|
-p, --port | 8080 | 服务监听端口 |
--home | ~/.agent-eval | 项目注册表所在的主目录 |
bash
# 自定义端口
agent-eval server -p 3000
# 自定义主目录
agent-eval server --home /data/agent-eval添加项目
首次启动时,Web UI 中没有项目。点击侧边栏项目切换器中的 "+ Add Project" 按钮,填写:
- 项目路径 — 已通过
agent-eval init创建的目录的绝对路径(如/home/user/my-eval) - 项目名称 — 自动从目录名填充,可自定义
项目信息保存在 ~/.agent-eval/projects.json 中。可以添加多个项目,并通过侧边栏下拉菜单切换。
页面说明
Dashboard(仪表盘)
选定项目的概览:
- 汇总卡片 — 总运行数、配置数、平均通过率、活跃运行数
- 最近运行表格 — 点击行可查看详细结果,包含通过率、耗时、日期
Configurations(配置管理)
带文件树的 YAML 配置编辑器:
- 文件树(左侧面板)— 浏览、创建和组织
.yaml配置文件和文件夹 - 编辑器(中间区域)— CodeMirror 6 编辑器,支持 YAML 语法高亮,输入时实时校验
- 快速插入(右侧面板)— 一键插入 agent、task、grader 配置模板
- 类型参考(右侧面板)— 可用的 agent 和 grader 类型列表,方便查阅
校验在每次编辑和切换文件时自动运行,错误信息显示在编辑器上方。
Runs(运行管理)
启动和管理评测运行:
- 新建运行 — 选择配置文件并启动评测,自动跳转到实时运行页面
- 活跃运行 — 带动态进度指示器的卡片,点击查看实时 SSE 数据流
- 运行历史 — 表格展示套件名称、Agent 类型、通过率(含迷你进度条)、耗时和相对时间
- 对比 — 勾选任意 2 次运行,点击 Compare 按钮查看带图表的并排对比
Run Detail(实时运行)
正在进行的评测的实时视图:
- 进度条 — 动态渐变填充,显示完成百分比
- 状态徽章 — 通过/失败/错误计数通过 SSE 实时更新
- 日志终端 — 滚动式终端日志,带颜色编码(绿色=通过,红色=错误,蓝色=开始事件)
- 取消 — 随时可停止正在运行的评测
Results(结果详情)
已完成运行的详细分解:
- 汇总卡片 — 通过率、平均分、总试验数、估算成本
- 任务结果 — 可展开的任务行,显示 pass/fail/error 计数、平均分和延迟分位数(P50/P90)
- 试验详情 — 逐试验的评分结果、分数、Agent 输出、元数据和 Transcript
Compare(运行对比)
两次运行的并排对比:
- 运行信息卡片 — 橙色强调(Run A)和靛蓝色强调(Run B)的概要卡片
- 柱状图 — ECharts 可视化对比通过率、平均分、pass@k、pass^k
- 指标表格 — 数值对比,带方向箭头(↑ 提升,↓ 退步)
- 逐任务钻取 — 可展开的行,显示试验级别的差异,支持按状态筛选(改善/退步/不变)
Settings(设置)
项目信息展示:
- 项目名称、路径和数据库路径