跳到主要内容

Agent论文脉络

本文件按能力维度串联经典论文和早期开源实践。

它不按发布时间做简单列表。

学习 Agent 论文时,更重要的问题是:

  • 这篇资料解决 Agent 的哪一种能力缺口。
  • 它的实验或实践证据来自什么场景。
  • 它能给现代工程系统什么启发。
  • 它有哪些不能直接照搬的边界。

1. 总览结论

Agent 研究和实践可以拆成七条能力线:

能力维度代表资料核心问题工程落点
工具ReAct、Toolformer模型如何决定调用外部能力tool calling、工具注册、工具评测
规划Tree of Thoughts、AutoGPT/BabyAGI如何拆解、搜索和管理任务planner、任务队列、预算控制
记忆Generative Agents、Reflexion、Voyager如何保存事件、经验和技能memory store、skill library、trace
反思Reflexion、Generative Agents失败或事件如何转成经验evaluator、复盘、经验有效期
多 AgentGenerative Agents多个 Agent 如何共享环境和传播状态事件总线、权限隔离、协作协议
评测ReAct、Reflexion、ToT如何判断过程和结果是否可靠trace eval、tool eval、任务成功率
安全早期自主 Agent 失败教训如何限制权限、成本和副作用guardrails、HITL、审计

一条更实际的学习路径是:

2. 工具能力线

工具能力回答的问题是:模型何时应该离开纯文本生成,转向外部系统。

ReAct

ReAct 的核心是推理、行动和观察交替。

它让模型在执行中通过外部观察修正下一步。

工程启发:

  • 每次工具调用都要有 trace。
  • 工具返回要作为观察,而不是直接当真理。
  • 最终答案要能追溯到观察和证据。

不能照搬:

  • 不能把中间推理直接当事实证据。
  • 不能让所有工具无权限边界地进入循环。

Toolformer

Toolformer 的核心是自监督构造工具调用训练数据。

它关注“模型如何学会什么时候调用 API”。

工程启发:

  • 工具调用要有数据集和评测集。
  • 工具调用收益要被度量。
  • 错误调用要分类。

不能照搬:

  • 损失下降不等于业务正确。
  • 受控 API 不等于真实高风险工具。

3. 规划能力线

规划能力回答的问题是:复杂目标如何被拆解、搜索和控制。

Tree of Thoughts

ToT 把中间思路变成搜索树。

它适合需要比较多个候选、回溯和评估的任务。

工程启发:

  • 规划器应拆成 generator、evaluator、search controller。
  • 每个候选状态应可序列化和评分。
  • 搜索必须有深度、宽度、成本和终止条件。

不能照搬:

  • 没有可靠评估器时,搜索只会放大成本。
  • 低延迟任务不适合多分支搜索。

AutoGPT 与 BabyAGI

这两者展示了任务队列式自主循环。

它们不是严格论文证据。

工程启发:

  • 任务队列要有来源、优先级、依赖和状态。
  • 任务生成必须有边界。
  • 自主循环必须有停止条件。

不能照搬:

  • 不能把连续运行当作价值本身。
  • 不能让模型自由创建高风险任务。

4. 记忆能力线

记忆能力回答的问题是:哪些历史信息应该影响下一次行为。

Generative Agents

它提出记忆流、检索、反思和计划。

工程启发:

  • 记忆要区分原始事件、摘要、偏好和反思。
  • 检索不能只看最近 N 条。
  • 长期记忆必须支持权限、删除和纠错。

不能照搬:

  • 角色仿真可信不等于事实正确。
  • 长期记忆不能无边界保存用户数据。

Reflexion

Reflexion 把失败经验写成语言记忆。

工程启发:

  • 失败 trace 是改进数据源。
  • 反思必须绑定证据。
  • 错误经验要有有效期和适用范围。

不能照搬:

  • 模型自我反思不能替代测试。
  • 评估器不可靠时,反思会固化错误。

Voyager

Voyager 把成功经验沉淀为技能库。

工程启发:

  • 技能应包含前置条件、执行步骤、验证方式和风险等级。
  • 成功技能入库前需要测试和版本管理。
  • 技能复用要评测收益。

不能照搬:

  • Minecraft 反馈明确,企业系统反馈不一定明确。
  • 自动探索不能默认接入高权限工具。

5. 反思能力线

反思能力不是让模型“想得更深”。

它更接近反馈系统:

  • 哪一步失败。
  • 为什么失败。
  • 下次如何避免。
  • 这条经验适用于哪些任务。

代表方法:

方法反思来源反思对象风险
Reflexion失败轨迹和评估器下一轮尝试评估器错误导致错误经验
Generative Agents多个低层记忆高层行为经验摘要虚构或隐私风险
Voyager执行错误和成功代码技能修正与入库错误技能污染技能库

工程判断:

  • 有客观验证时优先用测试和规则。
  • 反思文本必须引用来源 trace。
  • 反思进入长期记忆前要去重和审核。

6. 多 Agent 能力线

多 Agent 不只是“多开几个模型”。

它至少包含:

  • 共享环境。
  • 角色权限。
  • 状态传播。
  • 冲突解决。
  • 可观察事件日志。

Generative Agents 的价值在于展示多个角色如何通过环境观察互相影响。

但生产系统还要补齐:

  • 每个 Agent 的权限边界。
  • 共享记忆的访问控制。
  • 协作协议。
  • 人工接管机制。
  • 全局 trace。

多 Agent 的常见反模式:

  • 让多个 Agent 互相聊天但没有外部验证。
  • 让 Agent 共享所有上下文。
  • 用角色名称替代职责定义。
  • 没有最终责任人或仲裁器。

7. 评测能力线

Agent 评测必须从“最终答案”扩展到“过程正确”。

评测对象关键指标相关方法
最终结果任务成功率、正确率、用户验收所有方法
工具调用是否该调用、工具选择、参数正确ReAct、Toolformer
规划过程分支质量、剪枝错误、预算效率Tree of Thoughts
反思质量是否基于证据、是否提升重试成功率Reflexion
记忆检索precision、recall、过期记忆比例Generative Agents
技能复用复用成功率、回归失败率Voyager
安全治理越权率、注入抵抗、人工审批命中率早期自主 Agent 教训

评测落地建议:

  • 保存完整 trace。
  • 做固定样本回放。
  • 给工具调用单独建 eval。
  • 给高风险动作做红队样本。
  • 每次模型或工具版本升级都跑回归。

8. 安全能力线

Agent 论文通常不会完整覆盖生产安全。

早期开源自主 Agent 的失败教训提醒我们:

  • 目标越开放,越需要权限边界。
  • 步数越多,越需要预算和终止条件。
  • 工具越强,越需要人工确认。
  • 记忆越长,越需要隐私治理。
  • 多 Agent 越复杂,越需要全局审计。

安全设计表:

风险典型来源控制手段
Prompt Injection工具返回、网页、文档内容隔离、策略优先级、注入评测
Data Exfiltration工具读取敏感数据ACL、脱敏、最小权限
Tool Misuse错误工具或错误参数schema 校验、工具白名单、审批
Runaway Loop任务发散或重复max steps、成本预算、重复检测
Memory Poisoning错误经验长期保存来源追踪、有效期、人工审核
Unsafe Autonomy高风险动作自动执行HITL、幂等键、回滚方案

9. 技术路线判断

选择论文方法时,不要问“哪篇最强”。

应该问:

工程问题优先参考前置条件
多步工具问答ReAct工具 schema、trace、注入防护
工具调用准确率低Toolformer工具调用样本和回放评测
复杂规划失败Tree of Thoughts可靠 evaluator 和预算
重复犯同样错误Reflexion可验证失败信号
长期偏好和事件影响行为Generative Agents记忆权限和删除机制
需要沉淀可复用动作Voyager技能验证和版本管理
想做自主任务队列AutoGPT/BabyAGI明确任务边界和停止条件

10. 阅读顺序

建议按这个顺序读:

  1. ReAct:先理解 Agent loop。
  2. Toolformer:理解工具调用数据和收益评估。
  3. Tree of Thoughts:理解规划和搜索。
  4. Reflexion:理解失败反馈和经验记忆。
  5. Generative Agents:理解长期记忆和多 Agent 仿真。
  6. Voyager:理解技能库和开放探索。
  7. AutoGPT 与 BabyAGI:理解早期开源实践的工程教训。

11. 权威资料