05-线上评测与发布门禁

核对日期：2026-05-13。

不稳定项：线上反馈工具、A/B 平台、评测 API、模型版本、供应商日志和监控系统会持续变化；生产发布门禁必须结合实际流量、业务风险和回滚能力校准。

1. 学习目标

本专题关注评测如何进入生产发布流程。离线评测能降低风险，但不能替代真实用户反馈；线上指标能反映真实使用，但也有偏差。

学完后你应该能做到：

设计发布前回归评测流程。
定义质量、成本、延迟、安全的发布门禁。
设计灰度、A/B、线上抽样评测和用户反馈闭环。
把线上失败转为回归样例。
为模型、Prompt、RAG 和 Agent 变更设计回滚条件。

2. 发布前流程

推荐流程：

变更提交
-> smoke eval
-> full offline eval
-> safety eval
-> cost/latency check
-> human spot review
-> internal dogfood
-> small traffic canary
-> monitor
-> ramp up or rollback

每一步都要有通过标准，而不是“看起来没问题”。

3. 发布门禁

门禁	示例阈值
核心任务通过率	不低于当前线上版本
安全负例	100% 通过
RAG 引用支持率	>= 目标阈值
Agent 越权	0
schema 通过率	>= 目标阈值
P95 延迟	不超过阈值
单请求成本	不超过预算
回滚方案	已验证

高风险安全失败不能被平均分掩盖。

4. 线上指标

质量指标：

用户采纳率。
人工审核通过率。
编辑距离。
重新生成率。
负反馈率。
引用点击率。
拒答后追问率。

系统指标：

成功率。
错误率。
P50/P95/P99 延迟。
token 用量。
成本。
fallback rate。
tool error rate。

安全指标：

prompt injection 拦截。
越权请求。
DLP 命中。
高风险工具审批。

5. 线上指标偏差

线上指标需要解释。

例子：

采纳率高不一定正确，用户可能无法判断。
负反馈低不一定好，用户可能没有反馈入口。
引用点击率低不一定引用无用，可能答案足够清楚。
拒答率下降不一定好，可能模型开始编造。

所以线上指标要和离线 eval、人工抽检、trace 分析结合。

6. A/B 与灰度

A/B 适合比较：

Prompt A vs Prompt B。
模型 A vs 模型 B。
RAG top_k 方案。
回答格式。

不适合：

未通过安全 eval 的能力。
高风险审批是否开启。
没有回滚能力的变更。

灰度指标：

分组流量是否均衡。
样本量是否足够。
是否有高风险样例单独监控。
是否能快速回滚。

7. 线上失败入库

线上失败进入回归集流程：

用户反馈 / 人工审核 / 告警
-> 找 trace
-> 脱敏
-> 标注 expected behavior
-> 归因 failure type
-> 加入 eval dataset
-> 修复
-> 回归验证

失败样例字段：

原始输入摘要。
实际输出。
期望行为。
失败类型。
根因。
关联版本。
修复状态。
是否回归。

8. 回滚条件

模型或 Prompt 变更应定义回滚阈值：

指标	回滚
安全负例失败	立即回滚
核心 eval 下降超过阈值	停止放量
成本上涨超过预算	停止放量
P95 延迟显著变差	降级或回滚
schema 失败率上升	回滚 Prompt/parser
负反馈异常	回滚并分析

回滚能力要在发布前验证。

9. 评测报告

发布评测报告应包含：

# AI 系统评测报告

## 1. 被测对象
## 2. 模型 / Prompt / 数据版本
## 3. 评测集说明
## 4. 指标总览
## 5. 分任务结果
## 6. 失败类型分布
## 7. 典型失败样例
## 8. 成本和延迟
## 9. 安全负例结果
## 10. 是否建议上线
## 11. 后续修复计划

报告要给出上线建议，而不是只堆指标。

10. 常见反模式

反模式	表现	后果	修正
无门禁	想发就发	回归频繁	发布阈值
只看平均分	安全失败被掩盖	高风险事故	一票否决
线上反馈不入库	问题反复发生	无回归	失败闭环
A/B 无样本控制	结论偏	错误决策	分组和样本量
回滚未验证	出事无法退	影响扩大	发布前演练

11. 练习

为一次“企业知识库 RAG Prompt 升级”设计发布门禁：

离线 eval。
安全 eval。
成本延迟检查。
内部灰度。
1% 流量灰度。
回滚阈值。
线上失败入库流程。

12. 验收题

离线评测和线上指标各自解决什么问题？
发布门禁为什么不能只看平均分？
哪些 AI 变更需要回归评测？
线上指标有哪些常见偏差？
如何把线上失败转为回归样例？
回滚条件应该在什么时候定义？

1. 学习目标​

2. 发布前流程​

3. 发布门禁​

4. 线上指标​

5. 线上指标偏差​

6. A/B 与灰度​

7. 线上失败入库​

8. 回滚条件​

9. 评测报告​

10. 常见反模式​

11. 练习​

12. 验收题​