跳到主要内容

安全资料索引

Agent 安全资料要和论文、框架文档一起读。

原因是 Agent 不只是生成文本，它还会：

读取外部数据。
调用工具。
保存记忆。
执行多步任务。
影响真实系统状态。

1. 通用 AI 与 LLM 安全

资料	地址	可信度	适用场景	如何阅读
OWASP Top 10 for LLM Applications	https://owasp.org/www-project-top-10-for-large-language-model-applications/	B/S	LLM 应用风险识别、红队测试、上线检查	重点看 Prompt Injection、Sensitive Information Disclosure、Excessive Agency
NIST AI Risk Management Framework	https://www.nist.gov/itl/ai-risk-management-framework	B/S	企业 AI 风险治理、流程和责任划分	用于管理层和合规视角
NIST AI 600-1 Generative AI Profile	https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence	B/S	生成式 AI 风险画像和治理建议	用于补充 GenAI 特定风险

2. Agent 与工具调用安全

资料	地址	可信度	适用场景	如何阅读
MCP Security Best Practices	https://modelcontextprotocol.io/docs/tutorials/security/security_best_practices	S	MCP OAuth、token、重定向、confused deputy 风险	做 MCP server/client 安全评审时必读
OpenAI Safety best practices	https://developers.openai.com/api/docs/guides/safety-best-practices	S	输入输出约束、评测、人工审核	与工具调用、guardrails 一起读
Anthropic Responsible Scaling Policy	https://www.anthropic.com/responsible-scaling-policy	S/B	模型能力评估和治理公开政策	了解模型供应商治理口径

3. 云与企业治理

资料	地址	可信度	适用场景	如何阅读
Microsoft Responsible AI	https://www.microsoft.com/ai/responsible-ai	B/S	企业 AI 治理原则和工具入口	做企业治理框架参考
AWS Responsible AI	https://aws.amazon.com/ai/responsible-ai/	B/S	云上 AI 风险治理和责任 AI 资料	与 Bedrock 安全文档配合读
Google Responsible AI	https://ai.google/responsibility/responsible-ai-practices/	B/S	Google 责任 AI 实践入口	了解云厂商治理原则

4. Agent 安全风险地图

风险	触发位置	典型后果	控制手段
Prompt Injection	外部网页、文档、邮件、工具返回	Agent 忽略系统约束或执行恶意指令	内容隔离、输入标记、注入评测
Data Exfiltration	检索、工具调用、日志、记忆	敏感信息泄漏给未授权主体	ACL、脱敏、最小权限、审计
Tool Poisoning	工具名称、描述、schema、返回内容	模型选择恶意工具或误解工具能力	工具注册审核、签名、版本管理
Excessive Agency	过宽权限和长时循环	自动执行高影响动作	HITL、预算、审批、只读默认
Memory Poisoning	错误记忆或恶意内容入库	后续任务持续被污染	来源追踪、有效期、纠错、隔离
Supply Chain	第三方工具、插件、框架依赖	依赖漏洞或恶意代码	锁版本、SCA、最小依赖
Cost Abuse	循环、重试、恶意请求	token 和外部工具成本失控	速率限制、预算、告警

5. 上线检查清单

上线前至少确认：

所有工具都有 owner、schema、权限和风险等级。
高影响动作有人类审批。
工具调用有 trace 和参数记录。
外部内容被标记为不可信输入。
用户数据进入记忆前有过滤和保留策略。
失败重试有最大次数和幂等控制。
prompt injection 有红队样本。
模型、工具和框架升级会跑回归评测。
日志中不保存明文密钥和不必要敏感数据。

6. 如何和论文一起读

论文/方法	要补读的安全点
ReAct	工具返回注入、trace、工具权限
Toolformer	自动生成工具调用样本的数据脱敏和沙箱执行
Reflexion	错误反思入库、自动重试副作用
Voyager	自动生成技能的代码安全、入库审查
Generative Agents	长期记忆隐私、跨 Agent 信息泄漏
Tree of Thoughts	多分支搜索触发高风险工具
AutoGPT/BabyAGI	长时自主循环、目标发散、成本失控

7. 使用提醒

安全资料不是一次性阅读材料，应在架构评审、上线验收和事故复盘中反复使用。
任何“让 Agent 自主执行”的设计都要先定义权限边界、终止条件和回滚方案。
对快速变化的平台安全能力，要回到官方文档核对。

8. 权威资料

OWASP LLM Top 10: https://owasp.org/www-project-top-10-for-large-language-model-applications/
NIST AI RMF: https://www.nist.gov/itl/ai-risk-management-framework
MCP Security Best Practices: https://modelcontextprotocol.io/docs/tutorials/security/security_best_practices
OpenAI Safety Best Practices: https://developers.openai.com/api/docs/guides/safety-best-practices
核对日期：2026-05-09

1. 通用 AI 与 LLM 安全
2. Agent 与工具调用安全
3. 云与企业治理
4. Agent 安全风险地图
5. 上线检查清单
6. 如何和论文一起读
7. 使用提醒
8. 权威资料