05-事故响应供应链与合规治理
核对日期:2026-05-13。
不稳定项:监管要求、供应商服务条款、模型版本、开源模型许可、Agentic AI 安全事件和行业标准持续变化;发布前必须重新核对适用司法辖区、行业合规和采购条款。
1. 学习目标
本专题把安全从“设计阶段”推进到“长期运营阶段”:上线后的 AI 系统会遇到模型漂移、供应商变更、数据政策变化、注入绕过、工具事故和真实用户投诉。
学完后你应该能做到:
- 为 AI 功能设计 kill switch、降级、回滚、通知和复盘流程。
- 把安全事故转化为回归评测样例。
- 评估模型供应商、中转 API、开源模型、插件、MCP Server 和数据源的供应链风险。
- 用 NIST AI RMF 的 Govern、Map、Measure、Manage 思路组织治理闭环。
- 区分工程安全、组织治理和法律合规的边界。
2. 事故类型
AI 安全事故通常不是单一漏洞,而是模型、数据、权限和流程共同失效。
| 类型 | 示例 | 第一动作 |
|---|---|---|
| 注入绕过 | 模型服从恶意网页指令 | 暂停相关入口或降级只读 |
| 数据泄漏 | 输出其他用户信息 | 停用功能、保全日志、通知安全团队 |
| 工具误用 | Agent 误发邮件、误退款 | 阻断工具、撤销外部影响 |
| RAG 污染 | 错误政策被检索并引用 | 下架文档、重建索引 |
| 输出安全 | HTML/代码/SQL 导致注入 | 停用渲染或执行链路 |
| 供应商异常 | 模型版本变化、服务中断 | 切换 provider、冻结评测 |
| 成本攻击 | 恶意长输入消耗预算 | 限流、预算熔断 |
| 合规投诉 | 用户要求删除或导出数据 | 启动数据流程和法务评估 |
事故响应要先止损,再定位,再修复,最后回归。
3. 响应流程
发现
-> 分级
-> 止血
-> 保全证据
-> 影响评估
-> 修复和回滚
-> 通知和合规处理
-> 复盘
-> 评测回归
-> 门禁更新
每一步都应有负责人:
| 阶段 | 负责人 | 产出 |
|---|---|---|
| 发现 | 值班/客服/监控 | incident id |
| 分级 | 安全负责人 + 业务 owner | severity |
| 止血 | 工程 owner | kill switch、降级、工具禁用 |
| 证据 | 平台/安全 | trace、日志、模型和 Prompt 版本 |
| 修复 | 工程 + 安全 | patch、配置、策略 |
| 通知 | 业务 + 法务 | 用户、监管或内部通报 |
| 复盘 | owner | 根因和行动项 |
| 回归 | 评测 owner | 新增 eval cases |
4. Kill Switch 与降级
AI 功能上线前必须设计停用和降级路径。
| 控制 | 用途 |
|---|---|
| feature flag | 快速关闭功能 |
| tool kill switch | 禁用某类工具,如发送、删除、退款 |
| provider switch | 切换模型供应商 |
| prompt rollback | 回退到上个 Prompt 版本 |
| model rollback | 回退到已评测模型 |
| read-only mode | 从自动执行降级为只读建议 |
| budget breaker | 成本异常时熔断 |
| rate limit | 阻断攻击流量 |
没有 kill switch 的高风险 AI 功能,不适合直接进入生产。
5. 复盘模板
# AI 安全事故复盘
## 1. 摘要
- incident id:
- 严重等级:
- 发现时间:
- 恢复时间:
- 影响范围:
## 2. 时间线
## 3. 触发输入和上下文
## 4. 使用的模型、Prompt、工具和数据源
## 5. 直接原因
## 6. 根因分析
## 7. 止损动作
## 8. 修复方案
## 9. 用户、业务或合规影响
## 10. 新增回归样例
## 11. 门禁和流程更新
## 12. 未解决风险
复盘的质量标准:能让未来系统自动或半自动地防住同类问题。
6. 供应链风险
AI 系统的供应链比传统应用更长。
| 组件 | 风险 |
|---|---|
| 模型供应商 | 数据保留、训练使用、区域、版本变化、SLA |
| 中转 API | 请求内容被记录、模型来源不透明、密钥泄露、服务条款风险 |
| 开源模型 | 许可证、权重来源、后门、评测不充分 |
| Embedding 模型 | 向量漂移、隐私索引、召回变化 |
| Reranker | 排序偏差、供应中断 |
| MCP Server / 插件 | 工具描述投毒、权限过大、日志不透明 |
| 数据源 | 文档污染、过期、版权和访问权限 |
| 评测工具 | judge 偏差、样例泄漏 |
采购或接入前至少回答:
- 数据是否用于训练或改进服务?
- 数据保留多久?能否关闭保留?
- 是否支持企业协议、DPA、区域控制?
- 是否提供审计日志和 request id?
- 模型版本是否可固定?
- 是否有 SLA、退出方案和价格变更风险?
- 如果供应商不可用,系统如何降级?
7. 中转 API 特别风险
中转 API 可能便宜,但安全和合规风险更高:
- 业务数据和用户输入经过中转方。
- 官方 key 或账号可能由中转方托管。
- 实际模型和路由不透明。
- 数据保留和日志策略不透明。
- 可能违反上游服务条款。
- 供应中断、封禁、账单争议难追责。
适用边界:
| 场景 | 建议 |
|---|---|
| 公开数据、个人实验、低风险 demo | 可谨慎使用,避免敏感数据 |
| 内部工具、非敏感原型 | 需明确数据策略和退出方案 |
| 用户数据、企业知识库、生产业务 | 默认不使用,除非通过正式安全和法务评审 |
| 高敏、受监管、资金/医疗/人事 | 不应作为默认方案 |
8. 治理闭环
可以用 NIST AI RMF 的四类活动组织治理:
| 活动 | 在 AI 工程中的落地 |
|---|---|
| Govern | 定义角色、政策、风险接受标准、供应商准入 |
| Map | 映射场景、数据、用户、影响、信任边界 |
| Measure | 评测正确性、安全、偏差、鲁棒性、成本和可用性 |
| Manage | 发布门禁、监控、事故响应、回滚和持续改进 |
治理不是一次性文档,而是随着模型、Prompt、数据和工具版本变化持续运行的机制。
9. 合规边界
工程团队不应假装自己能独立完成法律判断,但必须提供合规评估需要的材料:
- 数据分类和流向。
- 数据处理目的。
- 模型和供应商清单。
- 是否跨境或跨区域。
- 日志和保留期。
- 删除、导出、纠错流程。
- 自动化决策是否影响用户权益。
- 人类复核和申诉机制。
- 安全测试和事故记录。
法律和合规团队判断“是否允许”,工程团队负责“系统是否真的按允许的方式运行”。
10. 工程案例
10.1 Prompt 更新导致泄漏
问题:Prompt v0.8 新增“详细解释依据”,导致模型输出内部审批备注。
响应:
- 回滚 Prompt 到 v0.7。
- 禁用该功能的详细解释模式。
- 导出受影响 trace。
- 添加敏感备注泄漏 eval。
- 更新发布门禁:Prompt 改动必须跑安全集。
10.2 RAG 索引污染
问题:爬虫把恶意网页索引进知识库,用户问答时触发间接注入。
响应:
- 下架污染文档。
- 重建相关索引。
- 增加入库扫描和来源 allowlist。
- 复盘检索日志,确认影响范围。
- 新增文档污染回归样例。
11. 常见反模式
| 反模式 | 表现 | 后果 | 修正 |
|---|---|---|---|
| 无停用开关 | 出事只能改代码 | 事故扩大 | feature flag 和 tool switch |
| 复盘只写加强 Prompt | 没有系统改进 | 问题复发 | 控制、eval、门禁 |
| 供应商只看价格 | 不看数据政策 | 合规风险 | 安全和法务评审 |
| 不固定模型版本 | 上游变化不知情 | 分数漂移 | 版本记录和回归 |
| 合规材料后补 | 上线后才问法务 | 返工或停服 | 需求阶段建档 |
12. 练习
为“企业知识库问答系统”写一份事故响应方案:
- 设计 4 个事故等级。
- 为注入绕过、数据泄漏、供应商中断、RAG 污染分别写止损动作。
- 设计 kill switch 和降级路径。
- 写一个复盘模板。
- 说明哪些事故样例必须进入回归评测。
13. 验收题
- AI 安全事故为什么要先止血再定位?
- 一个高风险 AI 功能至少需要哪些 kill switch?
- 为什么复盘必须产出回归 eval?
- 中转 API 的主要供应链风险是什么?
- NIST AI RMF 的 Govern、Map、Measure、Manage 如何映射到 AI 工程流程?
14. 延伸阅读
- NIST AI Risk Management Framework: https://www.nist.gov/itl/ai-risk-management-framework
- NIST AI 600-1 Generative AI Profile: https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence
- OWASP Top 10 for Agentic Applications 2026: https://genai.owasp.org/resource/owasp-top-10-for-agentic-applications-for-2026/
- OWASP GenAI Exploit Round-up Q1 2026: https://genai.owasp.org/2026/04/14/owasp-genai-exploit-round-up-report-q1-2026/