安全资料索引
Agent 安全资料要和论文、框架文档一起读。
原因是 Agent 不只是生成文本,它还会:
- 读取外部数据。
- 调用工具。
- 保存记忆。
- 执行多步任务。
- 影响真实系统状态。
1. 通用 AI 与 LLM 安全
| 资料 | 地址 | 可信度 | 适用场景 | 如何阅读 |
|---|---|---|---|---|
| OWASP Top 10 for LLM Applications | https://owasp.org/www-project-top-10-for-large-language-model-applications/ | B/S | LLM 应用风险识别、红队测试、上线检查 | 重点看 Prompt Injection、Sensitive Information Disclosure、Excessive Agency |
| NIST AI Risk Management Framework | https://www.nist.gov/itl/ai-risk-management-framework | B/S | 企业 AI 风险治理、流程和责任划分 | 用于管理层和合规视角 |
| NIST AI 600-1 Generative AI Profile | https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence | B/S | 生成式 AI 风险画像和治理建议 | 用于补充 GenAI 特定风险 |
2. Agent 与工具调用安全
| 资料 | 地址 | 可信度 | 适用场景 | 如何阅读 |
|---|---|---|---|---|
| MCP Security Best Practices | https://modelcontextprotocol.io/docs/tutorials/security/security_best_practices | S | MCP OAuth、token、重定向、confused deputy 风险 | 做 MCP server/client 安全评审时必读 |
| OpenAI Safety best practices | https://developers.openai.com/api/docs/guides/safety-best-practices | S | 输入输出约束、评测、人工审核 | 与工具调用、guardrails 一起读 |
| Anthropic Responsible Scaling Policy | https://www.anthropic.com/responsible-scaling-policy | S/B | 模型能力评估和治理公开政策 | 了解模型供应商治理口径 |
3. 云与企业治理
| 资料 | 地址 | 可信度 | 适用场景 | 如何阅读 |
|---|---|---|---|---|
| Microsoft Responsible AI | https://www.microsoft.com/ai/responsible-ai | B/S | 企业 AI 治理原则和工具入口 | 做企业治理框架参考 |
| AWS Responsible AI | https://aws.amazon.com/ai/responsible-ai/ | B/S | 云上 AI 风险治理和责任 AI 资料 | 与 Bedrock 安全文档配合读 |
| Google Responsible AI | https://ai.google/responsibility/responsible-ai-practices/ | B/S | Google 责任 AI 实践入口 | 了解云厂商治理原则 |
4. Agent 安全风险地图
| 风险 | 触发位置 | 典型后果 | 控制手段 |
|---|---|---|---|
| Prompt Injection | 外部网页、文档、邮件、工具返回 | Agent 忽略系统约束或执行恶意指令 | 内容隔离、输入标记、注入评测 |
| Data Exfiltration | 检索、工具调用、日志、记忆 | 敏感信息泄漏给未授权主体 | ACL、脱敏、最小权限、审计 |
| Tool Poisoning | 工具名称、描述、schema、返回内容 | 模型选择恶意工具或误解工具能力 | 工具注册审核、签名、版本管理 |
| Excessive Agency | 过宽权限和长时循环 | 自动执行高影响动作 | HITL、预算、审批、只读默认 |
| Memory Poisoning | 错误记忆或恶意内容入库 | 后续任务持续被污染 | 来源追踪、有效期、纠错、隔离 |
| Supply Chain | 第三方工具、插件、框架依赖 | 依赖漏洞或恶意代码 | 锁版本、SCA、最小依赖 |
| Cost Abuse | 循环、重试、恶意请求 | token 和外部工具成本失控 | 速率限制、预算、告警 |
5. 上线检查清单
上线前至少确认:
- 所有工具都有 owner、schema、权限和风险等级。
- 高影响动作有人类审批。
- 工具调用有 trace 和参数记录。
- 外部内容被标记为不可信输入。
- 用户数据进入记忆前有过滤和保留策略。
- 失败重试有最大次数和幂等控制。
- prompt injection 有红队样本。
- 模型、工具和框架升级会跑回归评测。
- 日志中不保存明文密钥和不必要敏感数据。
6. 如何和论文一起读
| 论文/方法 | 要补读的安全点 |
|---|---|
| ReAct | 工具返回注入、trace、工具权限 |
| Toolformer | 自动生成工具调用样本的数据脱敏和沙箱执行 |
| Reflexion | 错误反思入库、自动重试副作用 |
| Voyager | 自动生成技能的代码安全、入库审查 |
| Generative Agents | 长期记忆隐私、跨 Agent 信息泄漏 |
| Tree of Thoughts | 多分支搜索触发高风险工具 |
| AutoGPT/BabyAGI | 长时自主循环、目标发散、成本失控 |
7. 使用提醒
- 安全资料不是一次性阅读材料,应在架构评审、上线验收和事故复盘中反复使用。
- 任何“让 Agent 自主执行”的设计都要先定义权限边界、终止条件和回滚方案。
- 对快速变化的平台安全能力,要回到官方文档核对。
8. 权威资料
- OWASP LLM Top 10: https://owasp.org/www-project-top-10-for-large-language-model-applications/
- NIST AI RMF: https://www.nist.gov/itl/ai-risk-management-framework
- MCP Security Best Practices: https://modelcontextprotocol.io/docs/tutorials/security/security_best_practices
- OpenAI Safety Best Practices: https://developers.openai.com/api/docs/guides/safety-best-practices
- 核对日期:2026-05-09