跳到主要内容

安全资料索引

Agent 安全资料要和论文、框架文档一起读。

原因是 Agent 不只是生成文本,它还会:

  • 读取外部数据。
  • 调用工具。
  • 保存记忆。
  • 执行多步任务。
  • 影响真实系统状态。

1. 通用 AI 与 LLM 安全

资料地址可信度适用场景如何阅读
OWASP Top 10 for LLM Applicationshttps://owasp.org/www-project-top-10-for-large-language-model-applications/B/SLLM 应用风险识别、红队测试、上线检查重点看 Prompt Injection、Sensitive Information Disclosure、Excessive Agency
NIST AI Risk Management Frameworkhttps://www.nist.gov/itl/ai-risk-management-frameworkB/S企业 AI 风险治理、流程和责任划分用于管理层和合规视角
NIST AI 600-1 Generative AI Profilehttps://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligenceB/S生成式 AI 风险画像和治理建议用于补充 GenAI 特定风险

2. Agent 与工具调用安全

资料地址可信度适用场景如何阅读
MCP Security Best Practiceshttps://modelcontextprotocol.io/docs/tutorials/security/security_best_practicesSMCP OAuth、token、重定向、confused deputy 风险做 MCP server/client 安全评审时必读
OpenAI Safety best practiceshttps://developers.openai.com/api/docs/guides/safety-best-practicesS输入输出约束、评测、人工审核与工具调用、guardrails 一起读
Anthropic Responsible Scaling Policyhttps://www.anthropic.com/responsible-scaling-policyS/B模型能力评估和治理公开政策了解模型供应商治理口径

3. 云与企业治理

资料地址可信度适用场景如何阅读
Microsoft Responsible AIhttps://www.microsoft.com/ai/responsible-aiB/S企业 AI 治理原则和工具入口做企业治理框架参考
AWS Responsible AIhttps://aws.amazon.com/ai/responsible-ai/B/S云上 AI 风险治理和责任 AI 资料与 Bedrock 安全文档配合读
Google Responsible AIhttps://ai.google/responsibility/responsible-ai-practices/B/SGoogle 责任 AI 实践入口了解云厂商治理原则

4. Agent 安全风险地图

风险触发位置典型后果控制手段
Prompt Injection外部网页、文档、邮件、工具返回Agent 忽略系统约束或执行恶意指令内容隔离、输入标记、注入评测
Data Exfiltration检索、工具调用、日志、记忆敏感信息泄漏给未授权主体ACL、脱敏、最小权限、审计
Tool Poisoning工具名称、描述、schema、返回内容模型选择恶意工具或误解工具能力工具注册审核、签名、版本管理
Excessive Agency过宽权限和长时循环自动执行高影响动作HITL、预算、审批、只读默认
Memory Poisoning错误记忆或恶意内容入库后续任务持续被污染来源追踪、有效期、纠错、隔离
Supply Chain第三方工具、插件、框架依赖依赖漏洞或恶意代码锁版本、SCA、最小依赖
Cost Abuse循环、重试、恶意请求token 和外部工具成本失控速率限制、预算、告警

5. 上线检查清单

上线前至少确认:

  • 所有工具都有 owner、schema、权限和风险等级。
  • 高影响动作有人类审批。
  • 工具调用有 trace 和参数记录。
  • 外部内容被标记为不可信输入。
  • 用户数据进入记忆前有过滤和保留策略。
  • 失败重试有最大次数和幂等控制。
  • prompt injection 有红队样本。
  • 模型、工具和框架升级会跑回归评测。
  • 日志中不保存明文密钥和不必要敏感数据。

6. 如何和论文一起读

论文/方法要补读的安全点
ReAct工具返回注入、trace、工具权限
Toolformer自动生成工具调用样本的数据脱敏和沙箱执行
Reflexion错误反思入库、自动重试副作用
Voyager自动生成技能的代码安全、入库审查
Generative Agents长期记忆隐私、跨 Agent 信息泄漏
Tree of Thoughts多分支搜索触发高风险工具
AutoGPT/BabyAGI长时自主循环、目标发散、成本失控

7. 使用提醒

  • 安全资料不是一次性阅读材料,应在架构评审、上线验收和事故复盘中反复使用。
  • 任何“让 Agent 自主执行”的设计都要先定义权限边界、终止条件和回滚方案。
  • 对快速变化的平台安全能力,要回到官方文档核对。

8. 权威资料