跳到主要内容

参考答案

核对日期:2026-05-13。

1. 阶段练习参考方向

1.1 Chunk 策略比较

参考结论:

策略优点风险
固定 500 字简单、实现快切断标题、表格和上下文
按标题层级语义完整、引用清晰大章节可能过长
段落 + overlap保留局部上下文重复多、成本高

比较召回时要记录每个问题的正确证据是否进入 top k,以及失败是切分、检索、排序还是问题改写造成的。

1.2 检索对比练习

常见结论:

  • 关键词检索适合专有名词、编号、精确术语。
  • 向量检索适合语义相近但措辞不同的问题。
  • 混合检索通常更稳,但需要权重和 rerank。

输出不要只看最终回答,要检查 top 5 结果是否真的包含可回答证据。

1.3 Rerank 练习

Rerank 的目标是从召回候选中把更能回答问题的 chunk 排到前面。高质量记录应包含:

  • rerank 前 top 5 分数。
  • rerank 后 top 5 分数。
  • 被提升和被降级的 chunk 原因。
  • 是否牺牲延迟和成本。

1.4 引用验证练习

逐条检查:

  • 引用 ID 是否存在。
  • 引用内容是否直接支持结论。
  • 回答中是否有无引用结论。
  • 引用是否被过度解释。
  • 多个引用是否互相冲突。

如果引用只是主题相关但不能支撑结论,应判为失败。

1.5 RAG 拒答练习

参考拒答规则:

  • 无检索结果:拒答并说明知识库未覆盖。
  • 低相关结果:拒答或要求用户澄清问题。
  • 证据冲突:列出冲突并转人工或要求确认版本。
  • 用户无权限:不透露是否存在敏感文档,只说明权限不足。
  • 预测或编造:拒绝给确定事实,改为说明需要额外数据或人工判断。

2. 项目评分样例

高分 RAG 项目应具备:

  • 文档导入、清洗、chunk 和元数据规范清楚。
  • 检索链路有关键词、向量、混合或 rerank 对比。
  • 输出答案带引用,且引用支持结论。
  • 有权限过滤、版本和日志策略。
  • 至少 20 条 eval,覆盖正常、边界、无答案和权限样例。
  • 失败样例能定位到检索、排序、生成或数据问题。

不合格表现:

  • 把文档全塞进 Prompt。
  • 只有向量库 demo,没有引用验证。
  • 没有拒答,任何问题都编答案。
  • 没有权限和版本字段。

3. 验收题参考答案

  1. RAG 适合解决哪些问题,不适合解决哪些问题?

适合知识密集、需要最新或私有资料、要求引用的问答。不适合无标准答案的创意任务、需要训练模型技能的任务、权限不可控或数据质量很差的场景。

  1. 离线索引和在线查询分别包含哪些步骤?

离线索引:文档采集、清洗、切分、元数据、embedding、入库、版本管理。在线查询:问题改写、检索、权限过滤、rerank、上下文构造、生成、引用校验、日志和评测。

  1. Chunk 大小如何影响召回和上下文质量?

过小会丢上下文,过大会引入噪声并占 token。合适大小取决于文档结构、问题粒度、模型上下文和引用需求。

  1. 为什么 metadata 是 RAG 系统的关键组成?

metadata 支撑来源追踪、权限过滤、版本处理、更新时间、文档类型、租户隔离和引用展示。没有 metadata,RAG 很难治理。

  1. 向量检索和关键词检索各自适合什么场景?

向量检索适合语义相似和自然语言问题;关键词检索适合精确术语、编号、人名、产品名和法规条款。生产常用混合检索。

  1. Rerank 解决什么问题,代价是什么?

Rerank 改善候选排序,把更相关证据排前面。代价是额外模型调用、延迟、成本和系统复杂度。

  1. 为什么引用必须验证是否支持结论?

模型可能生成“带引用的幻觉”,引用主题相关但不支持具体结论。验证引用能防止来源装饰化,提高可追溯性。

  1. RAG 权限过滤应该在哪些环节做?

应在检索前限制可检索范围、检索后过滤候选、生成前检查上下文、展示时控制原文访问,日志也要避免泄漏无权限内容。

  1. RAG 评测为什么要分检索、排序、生成和 groundedness?

只看最终答案无法定位失败。分层评测能判断是没召回、排序错、生成错、引用不支持,还是拒答策略有问题。

  1. RAG 和微调分别适合什么问题?

RAG 适合接入外部知识、私有资料和频繁更新内容;微调适合改变模型风格、格式、领域模式或任务行为。微调不能替代权限和知识更新。