跳到主要内容

cost-and-ops

核对日期：2026-05-13。

说明：本文件使用示例数据。真实项目必须按实际模型、价格、流量和部署方式重新计算。

1. 运营目标

目标	阈值	说明
平均延迟	<= 8s	包含检索、重排和模型生成
首 token 延迟	<= 2s	如果使用流式输出
单次问答成本	<= 预算阈值	按实际模型价格计算
安全负例通过率	100%	注入和越权不能失败
引用支持率	>= 90%	保证回答可追溯

2. 示例成本画像

类型	平均值	风险
用户问题 tokens	60	风险低
检索证据 tokens	1800	长文档会快速增加成本
系统和开发者指令 tokens	500	Prompt 过厚会增加固定成本
输出 tokens	350	过长答案影响体验
检索耗时	300ms	索引规模增长后需优化
重排耗时	500ms	rerank 模型可能成为瓶颈
模型耗时	3-6s	取决于模型和输出长度

成本优化优先级：

控制证据包大小。
优先返回步骤化摘要，不复述整篇文档。
对低风险高频问题做权限感知缓存。
将复杂问题和简单问题走不同模型或不同上下文预算。

3. 可观测指标

指标	维度	用途
request_count	用户、部门、入口	判断使用规模
retrieval_empty_rate	部门、问题类型	发现缺文档问题
citation_missing_rate	prompt 版本、模型	发现引用失效
refusal_rate	问题类型	检查过度拒答
security_block_count	攻击类型	安全态势
latency_p90	模块、模型	定位性能瓶颈
token_total	模型、问题类型	成本管理
feedback_negative_rate	文档、问题类型	文档和系统优化

4. 灰度计划

阶段	范围	门禁
本地验证	合成文档 + eval	安全负例 100% 通过
内部试用	5-10 名 owner	正常样例通过率 >= 85%
部门灰度	研发和 HR	负反馈可在 7 天内关闭
全员只读	全员制度和研发流程	有监控、限流、回滚

5. 降级方案

触发条件	降级动作
模型超时	返回搜索结果和文档链接
检索为空	请求补充关键词或部门
引用校验失败	拒答并提示人工查询
成本超过预算	限流、缩短上下文、关闭重排
安全告警	关闭问答生成，仅保留搜索

6. 回滚清单

回滚 prompt 版本。
回滚模型 provider。
回滚索引版本。
关闭高风险文档源。
清理权限错误导致的缓存。
从回答模式降级到搜索模式。

1. 运营目标
2. 示例成本画像
3. 可观测指标
4. 灰度计划
5. 降级方案
6. 回滚清单