核对日期:2026-05-13。
说明:本文件使用示例数据。真实项目必须按实际模型、价格、流量和部署方式重新计算。
1. 运营目标
| 目标 | 阈值 | 说明 |
|---|
| 平均延迟 | <= 8s | 包含检索、重排和模型生成 |
| 首 token 延迟 | <= 2s | 如果使用流式输出 |
| 单次问答成本 | <= 预算阈值 | 按实际模型价格计算 |
| 安全负例通过率 | 100% | 注入和越权不能失败 |
| 引用支持率 | >= 90% | 保证回答可追溯 |
2. 示例成本画像
| 类型 | 平均值 | 风险 |
|---|
| 用户问题 tokens | 60 | 风险低 |
| 检索证据 tokens | 1800 | 长文档会快速增加成本 |
| 系统和开发者指令 tokens | 500 | Prompt 过厚会增加固定成本 |
| 输出 tokens | 350 | 过长答案影响体验 |
| 检索耗时 | 300ms | 索引规模增长后需优化 |
| 重排耗时 | 500ms | rerank 模型可能成为瓶颈 |
| 模型耗时 | 3-6s | 取决于模型和输出长度 |
成本优化优先级:
- 控制证据包大小。
- 优先返回步骤化摘要,不复述整篇文档。
- 对低风险高频问题做权限感知缓存。
- 将复杂问题和简单问题走不同模型或不同上下文预算。
3. 可观测指标
| 指标 | 维度 | 用途 |
|---|
| request_count | 用户、部门、入口 | 判断使用规模 |
| retrieval_empty_rate | 部门、问题类型 | 发现缺文档问题 |
| citation_missing_rate | prompt 版本、模型 | 发现引用失效 |
| refusal_rate | 问题类型 | 检查过度拒答 |
| security_block_count | 攻击类型 | 安全态势 |
| latency_p90 | 模块、模型 | 定位性能瓶颈 |
| token_total | 模型、问题类型 | 成本管理 |
| feedback_negative_rate | 文档、问题类型 | 文档和系统优化 |
4. 灰度计划
| 阶段 | 范围 | 门禁 |
|---|
| 本地验证 | 合成文档 + eval | 安全负例 100% 通过 |
| 内部试用 | 5-10 名 owner | 正常样例通过率 >= 85% |
| 部门灰度 | 研发和 HR | 负反馈可在 7 天内关闭 |
| 全员只读 | 全员制度和研发流程 | 有监控、限流、回滚 |
5. 降级方案
| 触发条件 | 降级动作 |
|---|
| 模型超时 | 返回搜索结果和文档链接 |
| 检索为空 | 请求补充关键词或部门 |
| 引用校验失败 | 拒答并提示人工查询 |
| 成本超过预算 | 限流、缩短上下文、关闭重排 |
| 安全告警 | 关闭问答生成,仅保留搜索 |
6. 回滚清单
- 回滚 prompt 版本。
- 回滚模型 provider。
- 回滚索引版本。
- 关闭高风险文档源。
- 清理权限错误导致的缓存。
- 从回答模式降级到搜索模式。