05-线上评测与发布门禁
核对日期:2026-05-13。
不稳定项:线上反馈工具、A/B 平台、评测 API、模型版本、供应商日志和监控系统会持续变化;生产发布门禁必须结合实际流量、业务风险和回滚能力校准。
1. 学习目标
本专题关注评测如何进入生产发布流程。离线评测能降低风险,但不能替代真实用户反馈;线上指标能反映真实使用,但也有偏差。
学完后你应该能做到:
- 设计发布前回归评测流程。
- 定义质量、成本、延迟、安全的发布门禁。
- 设计灰度、A/B、线上抽样评测和用户反馈闭环。
- 把线上失败转为回归样例。
- 为模型、Prompt、RAG 和 Agent 变更设计回滚条件。
2. 发布前流程
推荐流程:
变更提交
-> smoke eval
-> full offline eval
-> safety eval
-> cost/latency check
-> human spot review
-> internal dogfood
-> small traffic canary
-> monitor
-> ramp up or rollback
每一步都要有通过标准,而不是“看起来没问题”。
3. 发布门禁
| 门禁 | 示例阈值 |
|---|---|
| 核心任务通过率 | 不低于当前线上版本 |
| 安全负例 | 100% 通过 |
| RAG 引用支持率 | >= 目标阈值 |
| Agent 越权 | 0 |
| schema 通过率 | >= 目标阈值 |
| P95 延迟 | 不超过阈值 |
| 单请求成本 | 不超过预算 |
| 回滚方案 | 已验证 |
高风险安全失败不能被平均分掩盖。
4. 线上指标
质量指标:
- 用户采纳率。
- 人工审核通过率。
- 编辑距离。
- 重新生成率。
- 负反馈率。
- 引用点击率。
- 拒答后追问率。
系统指标:
- 成功率。
- 错误率。
- P50/P95/P99 延迟。
- token 用量。
- 成本。
- fallback rate。
- tool error rate。
安全指标:
- prompt injection 拦截。
- 越权请求。
- DLP 命中。
- 高风险工具审批。
5. 线上指标偏差
线上指标需要解释。
例子:
- 采纳率高不一定正确,用户可能无法判断。
- 负反馈低不一定好,用户可能没有反馈入口。
- 引用点击率低不一定引用无用,可能答案足够清楚。
- 拒答率下降不一定好,可能模型开始编造。
所以线上指标要和离线 eval、人工抽检、trace 分析结合。
6. A/B 与灰度
A/B 适合比较:
- Prompt A vs Prompt B。
- 模型 A vs 模型 B。
- RAG top_k 方案。
- 回答格式。
不适合:
- 未通过安全 eval 的能力。
- 高风险审批是否开启。
- 没有回滚能力的变更。
灰度指标:
- 分组流量是否均衡。
- 样本量是否足够。
- 是否有高风险样例单独监控。
- 是否能快速回滚。
7. 线上失败入库
线上失败进入回归集流程:
用户反馈 / 人工审核 / 告警
-> 找 trace
-> 脱敏
-> 标注 expected behavior
-> 归因 failure type
-> 加入 eval dataset
-> 修复
-> 回归验证
失败样例字段:
- 原始输入摘要。
- 实际输出。
- 期望行为。
- 失败类型。
- 根因。
- 关联版本。
- 修复状态。
- 是否回归。
8. 回滚条件
模型或 Prompt 变更应定义回滚阈值:
| 指标 | 回滚 |
|---|---|
| 安全负例失败 | 立即回滚 |
| 核心 eval 下降超过阈值 | 停止放量 |
| 成本上涨超过预算 | 停止放量 |
| P95 延迟显著变差 | 降级或回滚 |
| schema 失败率上升 | 回滚 Prompt/parser |
| 负反馈异常 | 回滚并分析 |
回滚能力要在发布前验证。
9. 评测报告
发布评测报告应包含:
# AI 系统评测报告
## 1. 被测对象
## 2. 模型 / Prompt / 数据版本
## 3. 评测集说明
## 4. 指标总览
## 5. 分任务结果
## 6. 失败类型分布
## 7. 典型失败样例
## 8. 成本和延迟
## 9. 安全负例结果
## 10. 是否建议上线
## 11. 后续修复计划
报告要给出上线建议,而不是只堆指标。
10. 常见反模式
| 反模式 | 表现 | 后果 | 修正 |
|---|---|---|---|
| 无门禁 | 想发就发 | 回归频繁 | 发布阈值 |
| 只看平均分 | 安全失败被掩盖 | 高风险事故 | 一票否决 |
| 线上反馈不入库 | 问题反复发生 | 无回归 | 失败闭环 |
| A/B 无样本控制 | 结论偏 | 错误决策 | 分组和样本量 |
| 回滚未验证 | 出事无法退 | 影响扩大 | 发布前演练 |
11. 练习
为一次“企业知识库 RAG Prompt 升级”设计发布门禁:
- 离线 eval。
- 安全 eval。
- 成本延迟检查。
- 内部灰度。
- 1% 流量灰度。
- 回滚阈值。
- 线上失败入库流程。
12. 验收题
- 离线评测和线上指标各自解决什么问题?
- 发布门禁为什么不能只看平均分?
- 哪些 AI 变更需要回归评测?
- 线上指标有哪些常见偏差?
- 如何把线上失败转为回归样例?
- 回滚条件应该在什么时候定义?