论文索引
本文件索引 AI Agent 经典论文和早期实践资料。
使用原则:
- 原始论文用于理解方法、实验设置和证据边界。
- 作者项目页和代码仓库用于核对实现细节。
- 开源项目如 AutoGPT、BabyAGI 只能作为工程实践参考,不作为严格论文证据。
1. 可信度与阅读方式
| 类型 | 可信度 | 适合回答的问题 | 不适合回答的问题 |
|---|---|---|---|
| 原始论文 | A | 方法结构、实验任务、主要贡献、局限 | 当前平台 API 是否支持 |
| 作者项目页 | A | demo、补充材料、代码入口 | 生产最佳实践 |
| 官方仓库 | S/A | 实现细节、示例、项目状态 | 论文结论的统计证明 |
| 社区复现 | C | 工程经验、复现实验 | 单独支撑技术路线 |
阅读论文时建议按四步走:
- 先看它解决什么能力缺口。
- 再看实验任务、基线和评测指标。
- 再看局限和失败场景。
- 最后判断它在现代工程中需要补哪些模块。
2. 推理与行动
| 论文 | 类型 | 主题 | 适用场景 | 知识库文件 |
|---|---|---|---|---|
| ReAct: Synergizing Reasoning and Acting in Language Models | 原始论文 | 推理与行动交替、工具/环境观察 | 多步工具问答、环境交互、可审计执行循环 | ../14-经典论文与方法/ReAct.md |
阅读重点:
- Thought、Action、Observation 如何组成循环。
- 实验中的工具和环境边界。
- 为什么生产中要把 trace、安全和权限补上。
3. 工具调用与外部能力
| 论文 | 类型 | 主题 | 适用场景 | 知识库文件 |
|---|---|---|---|---|
| Toolformer: Language Models Can Teach Themselves to Use Tools | 原始论文 | 自监督工具调用数据构造 | 工具调用样本生成、工具收益评估、模型工具使用训练 | ../14-经典论文与方法/Toolformer.md |
阅读重点:
- 少量示例如何扩展为候选工具调用样本。
- 损失过滤的证据边界。
- 为什么工具调用准确率需要独立评测。
4. 规划与搜索
| 论文 | 类型 | 主题 | 适用场景 | 知识库文件 |
|---|---|---|---|---|
| Tree of Thoughts: Deliberate Problem Solving with Large Language Models | 原始论文 | 搜索式推理、候选分支、评估器 | 高价值复杂规划、可评估中间状态、候选方案比较 | ../14-经典论文与方法/Tree-of-Thoughts.md |
阅读重点:
- Generator、Evaluator、Search Controller 的拆分。
- BFS、DFS、beam search 的成本和收益。
- 评估器不可靠时为什么 ToT 会放大错误。
5. 反思、记忆与学习
| 论文 | 类型 | 主题 | 适用场景 | 知识库文件 |
|---|---|---|---|---|
| Reflexion: Language Agents with Verbal Reinforcement Learning | 原始论文 | 语言反思、失败反馈、经验记忆 | 可评估任务的失败复盘、多轮重试、经验记忆 | ../14-经典论文与方法/Reflexion.md |
| Generative Agents: Interactive Simulacra of Human Behavior | 原始论文 | 记忆流、反思、计划、社会仿真 | 长期记忆、角色仿真、多 Agent 状态传播 | ../14-经典论文与方法/Generative-Agents.md |
阅读重点:
- Reflexion 依赖 evaluator,不是无条件自我提升。
- Generative Agents 的证据是行为可信度,不是事实正确性。
- 长期记忆需要隐私、删除和权限治理。
6. 开放式探索与技能积累
| 论文 | 类型 | 主题 | 适用场景 | 知识库文件 |
|---|---|---|---|---|
| Voyager: An Open-Ended Embodied Agent with Large Language Models | 原始论文 | 自动课程、技能库、开放探索 | 可观察环境、可执行技能、研发助手技能沉淀 | ../14-经典论文与方法/Voyager.md |
阅读重点:
- 自动课程如何提出下一目标。
- 技能库如何保存成功代码。
- 为什么技能入库必须有验证、版本和安全审查。
7. 早期开源实践
| 资料 | 类型 | 主题 | 适用场景 | 知识库文件 |
|---|---|---|---|---|
| AutoGPT | 开源实践 | 自主任务循环、工具使用、长期运行 | 工程模式、失败教训、历史参考 | ../14-经典论文与方法/AutoGPT与BabyAGI.md |
| BabyAGI | 开源实践 | 任务创建、优先级排序、任务队列 | 极简任务队列式 Agent 教学和原型 | ../14-经典论文与方法/AutoGPT与BabyAGI.md |
阅读重点:
- 它们不是严格论文证据。
- 重点看目标发散、循环失控、权限过大、成本失控。
- 现代系统应从可控任务队列和审批机制开始。
8. 参考链接
| 资料 | URL | 可信度 | 备注 |
|---|---|---|---|
| ReAct | https://arxiv.org/abs/2210.03629 | A | 原始论文 |
| ReAct project page | https://react-lm.github.io/ | A | 作者项目页 |
| Toolformer | https://arxiv.org/abs/2302.04761 | A | 原始论文 |
| Meta Toolformer page | https://ai.meta.com/research/publications/toolformer-language-models-can-teach-themselves-to-use-tools/ | A | 官方研究页 |
| Reflexion | https://arxiv.org/abs/2303.11366 | A | 原始论文 |
| Reflexion repository | https://github.com/noahshinn/reflexion | A | 作者仓库 |
| Generative Agents | https://arxiv.org/abs/2304.03442 | A | 原始论文 |
| Generative Agents ACM page | https://dl.acm.org/doi/10.1145/3586183.3606763 | A | 会议论文页 |
| Tree of Thoughts | https://arxiv.org/abs/2305.10601 | A | 原始论文 |
| Tree of Thoughts repository | https://github.com/princeton-nlp/tree-of-thought-llm | A | 作者仓库 |
| Voyager | https://arxiv.org/abs/2305.16291 | A | 原始论文 |
| Voyager project page | https://voyager.minedojo.org/ | A | 作者项目页 |
| AutoGPT | https://github.com/Significant-Gravitas/AutoGPT | S/A | 官方仓库,工程实践 |
| BabyAGI | https://github.com/yoheinakajima/babyagi | S/A | 官方仓库,工程实践 |
9. 使用提醒
- 论文结论要保留任务、模型、工具、环境和评测设置。
- 不要用论文证明某个当前商业平台具备某功能。
- 不要用开源 demo 证明生产可靠性。
- 需要工程落地时,必须结合官方文档、安全资料和本地评测。
10. 权威资料
- arXiv: https://arxiv.org/
- ACM Digital Library: https://dl.acm.org/
- 经典论文与方法目录:../14-经典论文与方法/README.md
- 核对日期:2026-05-09