Agent评测体系

本目录回答一个生产团队最常见的问题：Agent 到底有没有变好。单看一次演示、一次 benchmark 分数或一次人工主观判断都不够，工程评测需要把任务成功、工具调用、轨迹质量、成本延迟、安全风险和线上反馈放到同一张账本里。

文件	解决的问题
Agent评测总览.md	建立从离线到在线、从结果到轨迹的完整评测框架
离线评测.md	上线前如何用数据集、评审器和回归集判断改动
在线评测.md	上线后如何用 A/B、影子流量和用户反馈判断真实效果
Tool-Call准确率.md	如何评估是否在正确时机调用正确工具并传正确参数
Task-Success-Rate.md	如何定义任务成功，避免只看最终文本满意度
轨迹评测.md	如何评估 Agent 执行过程，而不只看最后答案
成本与延迟评测.md	如何把 token、工具耗时、重试和并发纳入评测
安全评测.md	如何覆盖提示注入、数据外泄、工具越权等风险
回归测试.md	如何把历史失败转成长期守门测试
Benchmark局限.md	如何正确使用 SWE-bench、GAIA、ToolBench、tau-bench 等 benchmark

总体方法

维度	推荐指标	解释
任务结果	Task Success Rate、人工通过率、关键字段正确率	判断用户目标是否真实完成
工具调用	Tool Call Accuracy、参数有效率、越权调用率	判断行动是否正确
轨迹过程	无效步骤数、重试率、循环率、人工接管率	判断执行路径是否稳定
成本延迟	端到端延迟、模型 token、工具耗时、单位成功成本	判断是否可规模化
安全治理	注入成功率、敏感数据泄漏率、危险动作确认率	判断是否可上线
线上体验	CSAT、解决率、二次联系率、投诉率	判断业务真实收益

OpenAI Evals guide: https://platform.openai.com/docs/guides/evals （核对日期：2026-05-09）
OpenAI Agents SDK tracing: https://openai.github.io/openai-agents-python/tracing/ （核对日期：2026-05-09）
LangSmith Evaluation docs: https://docs.langchain.com/langsmith/evaluation （核对日期：2026-05-09）
LangSmith Observability docs: https://docs.langchain.com/langsmith/observability （核对日期：2026-05-09）
OWASP Top 10 for LLM Applications: https://owasp.org/www-project-top-10-for-large-language-model-applications/ （核对日期：2026-05-09）
NIST AI Risk Management Framework: https://www.nist.gov/itl/ai-risk-management-framework （核对日期：2026-05-09）