Web UI

AgentEval 内置了基于浏览器的 Web UI，支持项目管理、配置编辑、实时进度的评测运行和结果查看。前端通过 go:embed 嵌入到单一二进制文件中，无需额外安装或单独启动前端进程。

启动服务

bash

agent-eval server

在浏览器中打开 http://localhost:8080。服务会自动读取 ~/.agent-eval/projects.json 中注册的项目。

选项

标志	默认值	说明
`-p, --port`	`8080`	服务监听端口
`--home`	`~/.agent-eval`	项目注册表所在的主目录

bash

# 自定义端口
agent-eval server -p 3000

# 自定义主目录
agent-eval server --home /data/agent-eval

添加项目

首次启动时，Web UI 中没有项目。点击侧边栏项目切换器中的 "+ Add Project" 按钮，填写：

项目路径 — 已通过 agent-eval init 创建的目录的绝对路径（如 /home/user/my-eval）
项目名称 — 自动从目录名填充，可自定义

项目信息保存在 ~/.agent-eval/projects.json 中。可以添加多个项目，并通过侧边栏下拉菜单切换。

页面说明

Dashboard（仪表盘）

选定项目的概览：

汇总卡片 — 总运行数、配置数、平均通过率、活跃运行数
最近运行表格 — 点击行可查看详细结果，包含通过率、耗时、日期

Configurations（配置管理）

带文件树的 YAML 配置编辑器：

文件树（左侧面板）— 浏览、创建和组织 .yaml 配置文件和文件夹
编辑器（中间区域）— CodeMirror 6 编辑器，支持 YAML 语法高亮，输入时实时校验
快速插入（右侧面板）— 一键插入 agent、task、grader 配置模板
类型参考（右侧面板）— 可用的 agent 和 grader 类型列表，方便查阅

校验在每次编辑和切换文件时自动运行，错误信息显示在编辑器上方。

Runs（运行管理）

启动和管理评测运行：

新建运行 — 选择配置文件并启动评测，自动跳转到实时运行页面
活跃运行 — 带动态进度指示器的卡片，点击查看实时 SSE 数据流
运行历史 — 表格展示套件名称、Agent 类型、通过率（含迷你进度条）、耗时和相对时间
对比 — 勾选任意 2 次运行，点击 Compare 按钮查看带图表的并排对比

Run Detail（实时运行）

正在进行的评测的实时视图：

进度条 — 动态渐变填充，显示完成百分比
状态徽章 — 通过/失败/错误计数通过 SSE 实时更新
日志终端 — 滚动式终端日志，带颜色编码（绿色=通过，红色=错误，蓝色=开始事件）
取消 — 随时可停止正在运行的评测

Results（结果详情）

已完成运行的详细分解：

汇总卡片 — 通过率、平均分、总试验数、估算成本
任务结果 — 可展开的任务行，显示 pass/fail/error 计数、平均分和延迟分位数（P50/P90）
试验详情 — 逐试验的评分结果、分数、Agent 输出、元数据和 Transcript

Compare（运行对比）

两次运行的并排对比：

运行信息卡片 — 橙色强调（Run A）和靛蓝色强调（Run B）的概要卡片
柱状图 — ECharts 可视化对比通过率、平均分、pass@k、pass^k
指标表格 — 数值对比，带方向箭头（↑ 提升，↓ 退步）
逐任务钻取 — 可展开的行，显示试验级别的差异，支持按状态筛选（改善/退步/不变）

Settings（设置）

项目信息展示：

项目名称、路径和数据库路径

Web UI ​

启动服务 ​

选项 ​

添加项目 ​

页面说明 ​

Dashboard（仪表盘） ​

Configurations（配置管理） ​

Runs（运行管理） ​

Run Detail（实时运行） ​

Results（结果详情） ​

Compare（运行对比） ​

Settings（设置） ​