参考答案
核对日期:2026-05-13。
专题学习入口:
1. 阶段练习参考方向
1.1 构建 20 条评测样例
合格 eval 样例应包含输入、期望行为、评分标准、标签和风险等级。比例可参考:
- 正常样例:覆盖主路径和常见意图。
- 边界样例:超长、歧义、多语言、格式异常。
- 缺信息样例:要求澄清或拒答。
- 安全负例:注入、越权、敏感数据、危险指令。
不要只写“答案正确”,要写什么算正确、哪些错误不可接受。
1.2 企业知识库问答 Rubric
示例 0-2 分维度:
| 维度 | 2 分 | 1 分 | 0 分 |
|---|---|---|---|
| 正确性 | 结论正确 | 部分正确 | 结论错误 |
| Groundedness | 每个结论有证据 | 部分证据不足 | 无证据或编造 |
| 引用 | 引用准确支持结论 | 引用主题相关 | 引用不存在或不支持 |
| 完整性 | 覆盖关键点 | 缺少次要信息 | 缺少关键条件 |
| 拒答 | 证据不足时拒答 | 拒答不清晰 | 编造答案 |
必须人工复核:高风险政策、证据冲突、用户投诉、低分样例、安全负例失败。
1.3 RAG 分层诊断
记录表建议:
question_id
gold_doc_exists
retrieved
in_context
answer_correct
citation_supports
failure_layer
失败层归因示例:数据缺失、检索未召回、rerank 排序错、上下文裁剪、模型生成错误、引用不支持。
1.4 Agent 轨迹评测
每一步至少检查:
- 工具选择是否符合目标。
- 参数是否正确和最小化。
- 是否遵守权限。
- 状态是否正确更新。
- 是否应该停止、重试或升级。
- 成本和步数是否超预算。
1.5 Judge 校准
比较人工和 LLM judge:
- 一致率低说明 Rubric 不清或 judge 不适合。
- 分歧样例要归类:偏好长答案、忽略引用、过度宽容、对安全负例不敏感。
- 校准后可让 judge 做初筛,关键样例仍需人工抽检。
2. 项目评分样例
高分评测项目应具备:
- 30 条以上样例,覆盖正常、边界、安全、拒答和历史失败。
- 每条样例有标签、风险等级和期望行为。
- Rubric 可复现,不依赖“感觉不错”。
- 同时有自动评分和人工抽样评分。
- 失败分析能定位到 Prompt、数据、检索、工具或模型。
- 发布门禁有阈值、回滚条件和例外流程。
不合格表现:
- 只挑成功 demo。
- 只看最终答案,不看 RAG 证据和 Agent 轨迹。
- judge 没有人工校准。
- 评测集不版本化。
3. 验收题参考答案
- 为什么 AI 系统不能只靠主观 demo 评估?
demo 容易选择好样例,无法覆盖长尾、边界、安全和历史失败。评测集能让质量可复现、可比较、可回归。
- 一个评测集应该包含哪些类型的样例?
正常样例、边界样例、缺信息样例、拒答样例、安全负例、历史失败样例、高风险业务样例和多样化用户表达。
- Rubric 的作用是什么?
Rubric 把“好答案”拆成可评分标准,减少主观漂移,让人工和自动评分有共同依据。
- 规则评分、人工评分和 LLM-as-judge 分别适合什么场景?
规则评分适合格式、精确字段和可计算指标;人工评分适合高风险和主观质量;LLM-as-judge 适合规模化初筛和开放文本评分,但需校准。
- RAG 为什么要分检索、排序、生成和引用评测?
最终答案错可能来自不同环节。分层评测能定位是证据不存在、没召回、排序错、生成错还是引用不支持。
- groundedness 和 correctness 有什么区别?
Correctness 是答案是否事实正确;groundedness 是答案是否被给定证据支持。答案可能事实正确但没有被当前证据支持。
- Agent 为什么要评估中间轨迹?
Agent 的风险在工具选择、参数、权限、状态和停止条件。只看最终答案会漏掉越权、无效调用和侥幸成功。
- LLM-as-judge 的主要风险是什么?
偏好流畅长答案、被表面格式影响、忽略证据、与被测模型同源偏差、对安全问题不敏感、评分不可复现。
- 如何把线上失败转成回归样例?
收集 trace、输入、输出、期望行为、失败原因和修复策略,脱敏后加入 eval 集,并给出标签和风险等级。
- 发布门禁应该包含哪些检查?
核心质量阈值、安全负例通过率、RAG 引用和拒答、Agent 轨迹、成本延迟、错误率、回滚方案和人工审批结果。