05-事故响应供应链与合规治理

核对日期：2026-05-13。

不稳定项：监管要求、供应商服务条款、模型版本、开源模型许可、Agentic AI 安全事件和行业标准持续变化；发布前必须重新核对适用司法辖区、行业合规和采购条款。

1. 学习目标

本专题把安全从“设计阶段”推进到“长期运营阶段”：上线后的 AI 系统会遇到模型漂移、供应商变更、数据政策变化、注入绕过、工具事故和真实用户投诉。

学完后你应该能做到：

为 AI 功能设计 kill switch、降级、回滚、通知和复盘流程。
把安全事故转化为回归评测样例。
评估模型供应商、中转 API、开源模型、插件、MCP Server 和数据源的供应链风险。
用 NIST AI RMF 的 Govern、Map、Measure、Manage 思路组织治理闭环。
区分工程安全、组织治理和法律合规的边界。

2. 事故类型

AI 安全事故通常不是单一漏洞，而是模型、数据、权限和流程共同失效。

类型	示例	第一动作
注入绕过	模型服从恶意网页指令	暂停相关入口或降级只读
数据泄漏	输出其他用户信息	停用功能、保全日志、通知安全团队
工具误用	Agent 误发邮件、误退款	阻断工具、撤销外部影响
RAG 污染	错误政策被检索并引用	下架文档、重建索引
输出安全	HTML/代码/SQL 导致注入	停用渲染或执行链路
供应商异常	模型版本变化、服务中断	切换 provider、冻结评测
成本攻击	恶意长输入消耗预算	限流、预算熔断
合规投诉	用户要求删除或导出数据	启动数据流程和法务评估

事故响应要先止损，再定位，再修复，最后回归。

3. 响应流程

发现
-> 分级
-> 止血
-> 保全证据
-> 影响评估
-> 修复和回滚
-> 通知和合规处理
-> 复盘
-> 评测回归
-> 门禁更新

每一步都应有负责人：

阶段	负责人	产出
发现	值班/客服/监控	incident id
分级	安全负责人 + 业务 owner	severity
止血	工程 owner	kill switch、降级、工具禁用
证据	平台/安全	trace、日志、模型和 Prompt 版本
修复	工程 + 安全	patch、配置、策略
通知	业务 + 法务	用户、监管或内部通报
复盘	owner	根因和行动项
回归	评测 owner	新增 eval cases

4. Kill Switch 与降级

AI 功能上线前必须设计停用和降级路径。

控制	用途
feature flag	快速关闭功能
tool kill switch	禁用某类工具，如发送、删除、退款
provider switch	切换模型供应商
prompt rollback	回退到上个 Prompt 版本
model rollback	回退到已评测模型
read-only mode	从自动执行降级为只读建议
budget breaker	成本异常时熔断
rate limit	阻断攻击流量

没有 kill switch 的高风险 AI 功能，不适合直接进入生产。

5. 复盘模板

# AI 安全事故复盘

## 1. 摘要
- incident id:
- 严重等级:
- 发现时间:
- 恢复时间:
- 影响范围:

## 2. 时间线
## 3. 触发输入和上下文
## 4. 使用的模型、Prompt、工具和数据源
## 5. 直接原因
## 6. 根因分析
## 7. 止损动作
## 8. 修复方案
## 9. 用户、业务或合规影响
## 10. 新增回归样例
## 11. 门禁和流程更新
## 12. 未解决风险

复盘的质量标准：能让未来系统自动或半自动地防住同类问题。

6. 供应链风险

AI 系统的供应链比传统应用更长。

组件	风险
模型供应商	数据保留、训练使用、区域、版本变化、SLA
中转 API	请求内容被记录、模型来源不透明、密钥泄露、服务条款风险
开源模型	许可证、权重来源、后门、评测不充分
Embedding 模型	向量漂移、隐私索引、召回变化
Reranker	排序偏差、供应中断
MCP Server / 插件	工具描述投毒、权限过大、日志不透明
数据源	文档污染、过期、版权和访问权限
评测工具	judge 偏差、样例泄漏

采购或接入前至少回答：

数据是否用于训练或改进服务？
数据保留多久？能否关闭保留？
是否支持企业协议、DPA、区域控制？
是否提供审计日志和 request id？
模型版本是否可固定？
是否有 SLA、退出方案和价格变更风险？
如果供应商不可用，系统如何降级？

7. 中转 API 特别风险

中转 API 可能便宜，但安全和合规风险更高：

业务数据和用户输入经过中转方。
官方 key 或账号可能由中转方托管。
实际模型和路由不透明。
数据保留和日志策略不透明。
可能违反上游服务条款。
供应中断、封禁、账单争议难追责。

适用边界：

场景	建议
公开数据、个人实验、低风险 demo	可谨慎使用，避免敏感数据
内部工具、非敏感原型	需明确数据策略和退出方案
用户数据、企业知识库、生产业务	默认不使用，除非通过正式安全和法务评审
高敏、受监管、资金/医疗/人事	不应作为默认方案

8. 治理闭环

可以用 NIST AI RMF 的四类活动组织治理：

活动	在 AI 工程中的落地
Govern	定义角色、政策、风险接受标准、供应商准入
Map	映射场景、数据、用户、影响、信任边界
Measure	评测正确性、安全、偏差、鲁棒性、成本和可用性
Manage	发布门禁、监控、事故响应、回滚和持续改进

治理不是一次性文档，而是随着模型、Prompt、数据和工具版本变化持续运行的机制。

9. 合规边界

工程团队不应假装自己能独立完成法律判断，但必须提供合规评估需要的材料：

数据分类和流向。
数据处理目的。
模型和供应商清单。
是否跨境或跨区域。
日志和保留期。
删除、导出、纠错流程。
自动化决策是否影响用户权益。
人类复核和申诉机制。
安全测试和事故记录。

法律和合规团队判断“是否允许”，工程团队负责“系统是否真的按允许的方式运行”。

10. 工程案例

10.1 Prompt 更新导致泄漏

问题：Prompt v0.8 新增“详细解释依据”，导致模型输出内部审批备注。

响应：

回滚 Prompt 到 v0.7。
禁用该功能的详细解释模式。
导出受影响 trace。
添加敏感备注泄漏 eval。
更新发布门禁：Prompt 改动必须跑安全集。

10.2 RAG 索引污染

问题：爬虫把恶意网页索引进知识库，用户问答时触发间接注入。

响应：

下架污染文档。
重建相关索引。
增加入库扫描和来源 allowlist。
复盘检索日志，确认影响范围。
新增文档污染回归样例。

11. 常见反模式

反模式	表现	后果	修正
无停用开关	出事只能改代码	事故扩大	feature flag 和 tool switch
复盘只写加强 Prompt	没有系统改进	问题复发	控制、eval、门禁
供应商只看价格	不看数据政策	合规风险	安全和法务评审
不固定模型版本	上游变化不知情	分数漂移	版本记录和回归
合规材料后补	上线后才问法务	返工或停服	需求阶段建档

12. 练习

为“企业知识库问答系统”写一份事故响应方案：

设计 4 个事故等级。
为注入绕过、数据泄漏、供应商中断、RAG 污染分别写止损动作。
设计 kill switch 和降级路径。
写一个复盘模板。
说明哪些事故样例必须进入回归评测。

13. 验收题

AI 安全事故为什么要先止血再定位？
一个高风险 AI 功能至少需要哪些 kill switch？
为什么复盘必须产出回归 eval？
中转 API 的主要供应链风险是什么？
NIST AI RMF 的 Govern、Map、Measure、Manage 如何映射到 AI 工程流程？

14. 延伸阅读

NIST AI Risk Management Framework: https://www.nist.gov/itl/ai-risk-management-framework
NIST AI 600-1 Generative AI Profile: https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence
OWASP Top 10 for Agentic Applications 2026: https://genai.owasp.org/resource/owasp-top-10-for-agentic-applications-for-2026/
OWASP GenAI Exploit Round-up Q1 2026: https://genai.owasp.org/2026/04/14/owasp-genai-exploit-round-up-report-q1-2026/

1. 学习目标​

2. 事故类型​

3. 响应流程​

4. Kill Switch 与降级​

5. 复盘模板​

6. 供应链风险​

7. 中转 API 特别风险​

8. 治理闭环​

9. 合规边界​

10. 工程案例​

10.1 Prompt 更新导致泄漏​

10.2 RAG 索引污染​

11. 常见反模式​

12. 练习​

13. 验收题​

14. 延伸阅读​