跳到主要内容

Agent评测体系

本目录回答一个生产团队最常见的问题:Agent 到底有没有变好。单看一次演示、一次 benchmark 分数或一次人工主观判断都不够,工程评测需要把任务成功、工具调用、轨迹质量、成本延迟、安全风险和线上反馈放到同一张账本里。

目录

文件解决的问题
Agent评测总览.md建立从离线到在线、从结果到轨迹的完整评测框架
离线评测.md上线前如何用数据集、评审器和回归集判断改动
在线评测.md上线后如何用 A/B、影子流量和用户反馈判断真实效果
Tool-Call准确率.md如何评估是否在正确时机调用正确工具并传正确参数
Task-Success-Rate.md如何定义任务成功,避免只看最终文本满意度
轨迹评测.md如何评估 Agent 执行过程,而不只看最后答案
成本与延迟评测.md如何把 token、工具耗时、重试和并发纳入评测
安全评测.md如何覆盖提示注入、数据外泄、工具越权等风险
回归测试.md如何把历史失败转成长期守门测试
Benchmark局限.md如何正确使用 SWE-bench、GAIA、ToolBench、tau-bench 等 benchmark

总体方法

最小指标集

维度推荐指标解释
任务结果Task Success Rate、人工通过率、关键字段正确率判断用户目标是否真实完成
工具调用Tool Call Accuracy、参数有效率、越权调用率判断行动是否正确
轨迹过程无效步骤数、重试率、循环率、人工接管率判断执行路径是否稳定
成本延迟端到端延迟、模型 token、工具耗时、单位成功成本判断是否可规模化
安全治理注入成功率、敏感数据泄漏率、危险动作确认率判断是否可上线
线上体验CSAT、解决率、二次联系率、投诉率判断业务真实收益

使用原则

  • 离线评测负责快速筛选,在线评测负责验证真实分布。
  • 结果指标和轨迹指标必须一起看;结果正确但过程越权,不能判为合格。
  • benchmark 只能回答“在这个公开任务集上表现如何”,不能替代生产验收。
  • 任何评测结论都要记录被测版本:模型、提示词、工具 schema、检索索引、策略版本、数据集版本。

权威资料