Agent论文脉络
本文件按能力维度串联经典论文和早期开源实践。
它不按发布时间做简单列表。
学习 Agent 论文时,更重要的问题是:
- 这篇资料解决 Agent 的哪一种能力缺口。
- 它的实验或实践证据来自什么场景。
- 它能给现代工程系统什么启发。
- 它有哪些不能直接照搬的边界。
1. 总览结论
Agent 研究和实践可以拆成七条能力线:
| 能力维度 | 代表资料 | 核心问题 | 工程落点 |
|---|---|---|---|
| 工具 | ReAct、Toolformer | 模型如何决定调用外部能力 | tool calling、工具注册、工具评测 |
| 规划 | Tree of Thoughts、AutoGPT/BabyAGI | 如何拆解、搜索和管理任务 | planner、任务队列、预算控制 |
| 记忆 | Generative Agents、Reflexion、Voyager | 如何保存事件、经验和技能 | memory store、skill library、trace |
| 反思 | Reflexion、Generative Agents | 失败或事件如何转成经验 | evaluator、复盘、经验有效期 |
| 多 Agent | Generative Agents | 多个 Agent 如何共享环境和传播状态 | 事件总线、权限隔离、协作协议 |
| 评测 | ReAct、Reflexion、ToT | 如何判断过程和结果是否可靠 | trace eval、tool eval、任务成功率 |
| 安全 | 早期自主 Agent 失败教训 | 如何限制权限、成本和副作用 | guardrails、HITL、审计 |
一条更实际的学习路径是:
2. 工具能力线
工具能力回答的问题是:模型何时应该离开纯文本生成,转向外部系统。
ReAct
ReAct 的核心是推理、行动和观察交替。
它让模型在执行中通过外部观察修正下一步。
工程启发:
- 每次工具调用都要有 trace。
- 工具返回要作为观察,而不是直接当真理。
- 最终答案要能追溯到观察和证据。
不能照搬:
- 不能把中间推理直接当事实证据。
- 不能让所有工具无权限边界地进入循环。
Toolformer
Toolformer 的核心是自监督构造工具调用训练数据。
它关注“模型如何学会什么时候调用 API”。
工程启发:
- 工具调用要有数据集和评测集。
- 工具调用收益要被度量。
- 错误调用要分类。
不能照搬:
- 损失下降不等于业务正确。
- 受控 API 不等于真实高风险工具。
3. 规划能力线
规划能力回答的问题是:复杂目标如何被拆解、搜索和控制。
Tree of Thoughts
ToT 把中间思路变成搜索树。
它适合需要比较多个候选、回溯和评估的任务。
工程启发:
- 规划器应拆成 generator、evaluator、search controller。
- 每个候选状态应可序列化和评分。
- 搜索必须有深度、宽度、成本和终止条件。
不能照搬:
- 没有可靠评估器时,搜索只会放大成本。
- 低延迟任务不适合多分支搜索。
AutoGPT 与 BabyAGI
这两者展示了任务队列式自主循环。
它们不是严格论文证据。
工程启发:
- 任务队列要有来源、优先级、依赖和状态。
- 任务生成必须有边界。
- 自主循环必须有停止条件。
不能照搬:
- 不能把连续运行当作价值本身。
- 不能让模型自由创建高风险任务。
4. 记忆能力线
记忆能力回答的问题是:哪些历史信息应该影响下一次行为。
Generative Agents
它提出记忆流、检索、反思和计划。
工程启发:
- 记忆要区分原始事件、摘要、偏好和反思。
- 检索不能只看最近 N 条。
- 长期记忆必须支持权限、删除和纠错。
不能照搬:
- 角色仿真可信不等于事实正确。
- 长期记忆不能无边界保存用户数据。
Reflexion
Reflexion 把失败经验写成语言记忆。
工程启发:
- 失败 trace 是改进数据源。
- 反思必须绑定证据。
- 错误经验要有有效期和适用范围。
不能照搬:
- 模型自我反思不能替代测试。
- 评估器不可靠时,反思会固化错误。
Voyager
Voyager 把成功经验沉淀为技能库。
工程启发:
- 技能应包含前置条件、执行步骤、验证方式和风险等级。
- 成功技能入库前需要测试和版本管理。
- 技能复用要评测收益。
不能照搬:
- Minecraft 反馈明确,企业系统反馈不一定明确。
- 自动探索不能默认接入高权限工具。
5. 反思能力线
反思能力不是让模型“想得更深”。
它更接近反馈系统:
- 哪一步失败。
- 为什么失败。
- 下次如何避免。
- 这条经验适用于哪些任务。
代表方法:
| 方法 | 反思来源 | 反思对象 | 风险 |
|---|---|---|---|
| Reflexion | 失败轨迹和评估器 | 下一轮尝试 | 评估器错误导致错误经验 |
| Generative Agents | 多个低层记忆 | 高层行为经验 | 摘要虚构或隐私风险 |
| Voyager | 执行错误和成功代码 | 技能修正与入库 | 错误技能污染技能库 |
工程判断:
- 有客观验证时优先用测试和规则。
- 反思文本必须引用来源 trace。
- 反思进入长期记忆前要去重和审核。
6. 多 Agent 能力线
多 Agent 不只是“多开几个模型”。
它至少包含:
- 共享环境。
- 角色权限。
- 状态传播。
- 冲突解决。
- 可观察事件日志。
Generative Agents 的价值在于展示多个角色如何通过环境观察互相影响。
但生产系统还要补齐:
- 每个 Agent 的权限边界。
- 共享记忆的访问控制。
- 协作协议。
- 人工接管机制。
- 全局 trace。
多 Agent 的常见反模式:
- 让多个 Agent 互相聊天但没有外部验证。
- 让 Agent 共享所有上下文。
- 用角色名称替代职责定义。
- 没有最终责任人或仲裁器。
7. 评测能力线
Agent 评测必须从“最终答案”扩展到“过程正确”。
| 评测对象 | 关键指标 | 相关方法 |
|---|---|---|
| 最终结果 | 任务成功率、正确率、用户验收 | 所有方法 |
| 工具调用 | 是否该调用、工具选择、参数正确 | ReAct、Toolformer |
| 规划过程 | 分支质量、剪枝错误、预算效率 | Tree of Thoughts |
| 反思质量 | 是否基于证据、是否提升重试成功率 | Reflexion |
| 记忆检索 | precision、recall、过期记忆比例 | Generative Agents |
| 技能复用 | 复用成功率、回归失败率 | Voyager |
| 安全治理 | 越权率、注入抵抗、人工审批命中率 | 早期自主 Agent 教训 |
评测落地建议:
- 保存完整 trace。
- 做固定样本回放。
- 给工具调用单独建 eval。
- 给高风险动作做红队样本。
- 每次模型或工具版本升级都跑回归。
8. 安全能力线
Agent 论文通常不会完整覆盖生产安全。
早期开源自主 Agent 的失败教训提醒我们:
- 目标越开放,越需要权限边界。
- 步数越多,越需要预算和终止条件。
- 工具越强,越需要人工确认。
- 记忆越长,越需要隐私治理。
- 多 Agent 越复杂,越需要全局审计。
安全设计表:
| 风险 | 典型来源 | 控制手段 |
|---|---|---|
| Prompt Injection | 工具返回、网页、文档 | 内容隔离、策略优先级、注入评测 |
| Data Exfiltration | 工具读取敏感数据 | ACL、脱敏、最小权限 |
| Tool Misuse | 错误工具或错误参数 | schema 校验、工具白名单、审批 |
| Runaway Loop | 任务发散或重复 | max steps、成本预算、重复检测 |
| Memory Poisoning | 错误经验长期保存 | 来源追踪、有效期、人工审核 |
| Unsafe Autonomy | 高风险动作自动执行 | HITL、幂等键、回滚方案 |
9. 技术路线判断
选择论文方法时,不要问“哪篇最强”。
应该问:
| 工程问题 | 优先参考 | 前置条件 |
|---|---|---|
| 多步工具问答 | ReAct | 工具 schema、trace、注入防护 |
| 工具调用准确率低 | Toolformer | 工具调用样本和回放评测 |
| 复杂规划失败 | Tree of Thoughts | 可靠 evaluator 和预算 |
| 重复犯同样错误 | Reflexion | 可验证失败信号 |
| 长期偏好和事件影响行为 | Generative Agents | 记忆权限和删除机制 |
| 需要沉淀可复用动作 | Voyager | 技能验证和版本管理 |
| 想做自主任务队列 | AutoGPT/BabyAGI | 明确任务边界和停止条件 |
10. 阅读顺序
建议按这个顺序读:
- ReAct:先理解 Agent loop。
- Toolformer:理解工具调用数据和收益评估。
- Tree of Thoughts:理解规划和搜索。
- Reflexion:理解失败反馈和经验记忆。
- Generative Agents:理解长期记忆和多 Agent 仿真。
- Voyager:理解技能库和开放探索。
- AutoGPT 与 BabyAGI:理解早期开源实践的工程教训。
11. 权威资料
- ReAct paper: https://arxiv.org/abs/2210.03629
- Toolformer paper: https://arxiv.org/abs/2302.04761
- Reflexion paper: https://arxiv.org/abs/2303.11366
- Generative Agents paper: https://arxiv.org/abs/2304.03442
- Tree of Thoughts paper: https://arxiv.org/abs/2305.10601
- Voyager paper: https://arxiv.org/abs/2305.16291
- AutoGPT repository: https://github.com/Significant-Gravitas/AutoGPT
- BabyAGI repository: https://github.com/yoheinakajima/babyagi
- 安全资料索引:../99-权威资料索引/安全资料索引.md
- 核对日期:2026-05-09