跳到主要内容

参考答案

核对日期:2026-05-13。

1. 阶段练习参考方向

1.1 Tokenization 练习

合格结果应记录字符数、token 数和 token/字符比例,并解释差异来源。

常见观察:

  • 英文技术文档通常 token/字符比较稳定。
  • 中文不等于“一个字一个 token”,取决于 tokenizer。
  • TypeScript 代码会因为符号、缩进、变量名和字符串更耗 token。
  • JSON 和 Markdown 表格含大量结构符号,token 成本可能高于自然语言。
  • 长上下文成本不只来自输入,也来自输出和多轮历史累积。

1.2 Attention 讲解练习

参考解释:

Query 表示当前位置想找什么信息,Key 表示每个位置能被匹配的特征,Value 表示匹配后真正传递的内容。Attention 通过 Query 和 Key 的相似度决定从哪些 Value 读取信息。

除以 sqrt(d_k) 是为了避免点积随维度增大变得过大,导致 softmax 过度尖锐、梯度不稳定。causal mask 防止生成当前位置时看到未来 token。multi-head attention 让不同头学习不同关系,例如语法、指代、局部结构和长距离依赖,不是简单重复。

1.3 推理参数实验

参考结论:

任务推荐参数方向原因
结构化抽取低 temperature、较明确 max tokens追求稳定和格式通过率
创意标题生成中高 temperature 或 top_p需要多样性
政策问答低 temperature、强引用要求事实准确和可追溯优先

实验报告至少比较格式通过率、事实正确率、输出多样性和延迟。不要只用“感觉更好”做结论。

1.4 长上下文失败样例

常见失败原因:

  • 正确证据位于上下文中部,被模型忽略。
  • 文档有冲突版本,模型没有识别最新或权威来源。
  • 相关段落太多,低价值信息污染答案。
  • 问题要求引用,但 Prompt 没有强制逐条证据支持。

缓解策略:

  • 用 RAG 先检索和排序,不把所有内容塞进上下文。
  • 元数据包含版本、日期、来源和权限。
  • 冲突证据要求模型列出差异或拒答。
  • 引用必须验证是否支持结论。

1.5 模型选型练习

参考判断:

场景推荐方向关键评测
客服草稿生成中等模型 + RAG + 人工确认引用正确率、采纳率、投诉率
合同条款风险提示强模型 + 检索 + 人工审核漏报率、误报率、证据支持
内容标签分类小模型或传统分类器准确率、成本、延迟、稳定性

模型选型不能只看能力,要同时看成本、延迟、上下文长度、结构化输出、合规、供应商稳定性和任务级 eval。

2. 项目评分样例

高分《LLM 机制与边界说明书》应具备:

  • 能用图解释 token -> attention -> decoder block -> next token。
  • 能区分预训练、SFT、RLHF、DPO 的目标。
  • 有推理参数实验表,而不是概念描述。
  • 至少 5 类幻觉来源都有工程缓解策略。
  • 模型选型矩阵包含成本、延迟、风险和评测集。

不合格表现:

  • 把 LLM 描述成“理解世界”的黑盒。
  • 只列模型榜单,不做业务 eval。
  • 混淆长上下文和长期记忆。
  • 把对齐当作权限和安全治理。

3. 验收题参考答案

  1. Tokenization 为什么会影响成本、延迟和截断?

模型按 token 计费、处理和生成。token 越多,输入成本、推理计算、延迟和上下文占用越高。超过上下文窗口会截断,导致关键信息丢失。

  1. Self-attention 中 Query、Key、Value 分别承担什么作用?

Query 表示当前位置要查询的信息,Key 表示每个位置可匹配的特征,Value 是被加权汇聚的内容。Attention 用 Query-Key 相似度决定从哪些 Value 读取信息。

  1. decoder-only LLM 为什么需要 causal mask?

生成任务按从左到右预测下一个 token。causal mask 防止模型在训练或生成当前位置时看到未来 token,避免信息泄漏。

  1. 预训练、SFT、RLHF、DPO 的目标分别是什么?

预训练学习通用语言和知识模式;SFT 用指令数据让模型学会按任务回答;RLHF 用人类偏好训练奖励并优化行为;DPO 直接用偏好对优化模型,简化传统 RLHF 流程。

  1. 为什么对齐不能替代权限控制和安全治理?

对齐改善模型行为倾向,但不能保证模型永远遵守权限、抵抗注入或正确处理敏感动作。权限、审计、审批和数据隔离必须由系统层实现。

  1. temperature 和 top_p 分别如何影响输出?

temperature 调整概率分布的尖锐程度,越高越随机;top_p 从累计概率最高的一组 token 中采样,限制候选范围。两者都会影响稳定性和多样性。

  1. 为什么长上下文不等于长期记忆?

长上下文只是在单次请求中放入更多信息,不会自动沉淀、更新、检索或治理历史知识。长期记忆需要存储、检索、更新、权限和遗忘机制。

  1. KV cache 优化了什么,不能解决什么?

KV cache 缓存历史 token 的 key/value,减少自回归生成中的重复计算,提高生成效率。它不降低输入理解成本,不解决幻觉、权限或长上下文质量问题。

  1. LLM 幻觉至少有哪些来源?

训练数据缺失或过时、上下文证据不足、检索错误、Prompt 诱导、解码随机性、任务要求超出模型能力、引用未校验、模型倾向生成流畅答案。

  1. 模型选型时为什么不能只看排行榜?

排行榜任务和业务任务可能不同。生产选型要看任务级质量、延迟、成本、稳定性、上下文、结构化输出、安全、合规和供应商风险。