跳到主要内容

论文索引

本文件索引 AI Agent 经典论文和早期实践资料。

使用原则：

原始论文用于理解方法、实验设置和证据边界。
作者项目页和代码仓库用于核对实现细节。
开源项目如 AutoGPT、BabyAGI 只能作为工程实践参考，不作为严格论文证据。

1. 可信度与阅读方式

类型	可信度	适合回答的问题	不适合回答的问题
原始论文	A	方法结构、实验任务、主要贡献、局限	当前平台 API 是否支持
作者项目页	A	demo、补充材料、代码入口	生产最佳实践
官方仓库	S/A	实现细节、示例、项目状态	论文结论的统计证明
社区复现	C	工程经验、复现实验	单独支撑技术路线

阅读论文时建议按四步走：

先看它解决什么能力缺口。
再看实验任务、基线和评测指标。
再看局限和失败场景。
最后判断它在现代工程中需要补哪些模块。

2. 推理与行动

论文	类型	主题	适用场景	知识库文件
ReAct: Synergizing Reasoning and Acting in Language Models	原始论文	推理与行动交替、工具/环境观察	多步工具问答、环境交互、可审计执行循环	../14-经典论文与方法/ReAct.md

阅读重点：

Thought、Action、Observation 如何组成循环。
实验中的工具和环境边界。
为什么生产中要把 trace、安全和权限补上。

3. 工具调用与外部能力

论文	类型	主题	适用场景	知识库文件
Toolformer: Language Models Can Teach Themselves to Use Tools	原始论文	自监督工具调用数据构造	工具调用样本生成、工具收益评估、模型工具使用训练	../14-经典论文与方法/Toolformer.md

阅读重点：

少量示例如何扩展为候选工具调用样本。
损失过滤的证据边界。
为什么工具调用准确率需要独立评测。

4. 规划与搜索

论文	类型	主题	适用场景	知识库文件
Tree of Thoughts: Deliberate Problem Solving with Large Language Models	原始论文	搜索式推理、候选分支、评估器	高价值复杂规划、可评估中间状态、候选方案比较	../14-经典论文与方法/Tree-of-Thoughts.md

阅读重点：

Generator、Evaluator、Search Controller 的拆分。
BFS、DFS、beam search 的成本和收益。
评估器不可靠时为什么 ToT 会放大错误。

5. 反思、记忆与学习

论文	类型	主题	适用场景	知识库文件
Reflexion: Language Agents with Verbal Reinforcement Learning	原始论文	语言反思、失败反馈、经验记忆	可评估任务的失败复盘、多轮重试、经验记忆	../14-经典论文与方法/Reflexion.md
Generative Agents: Interactive Simulacra of Human Behavior	原始论文	记忆流、反思、计划、社会仿真	长期记忆、角色仿真、多 Agent 状态传播	../14-经典论文与方法/Generative-Agents.md

阅读重点：

Reflexion 依赖 evaluator，不是无条件自我提升。
Generative Agents 的证据是行为可信度，不是事实正确性。
长期记忆需要隐私、删除和权限治理。

6. 开放式探索与技能积累

论文	类型	主题	适用场景	知识库文件
Voyager: An Open-Ended Embodied Agent with Large Language Models	原始论文	自动课程、技能库、开放探索	可观察环境、可执行技能、研发助手技能沉淀	../14-经典论文与方法/Voyager.md

阅读重点：

自动课程如何提出下一目标。
技能库如何保存成功代码。
为什么技能入库必须有验证、版本和安全审查。

7. 早期开源实践

资料	类型	主题	适用场景	知识库文件
AutoGPT	开源实践	自主任务循环、工具使用、长期运行	工程模式、失败教训、历史参考	../14-经典论文与方法/AutoGPT与BabyAGI.md
BabyAGI	开源实践	任务创建、优先级排序、任务队列	极简任务队列式 Agent 教学和原型	../14-经典论文与方法/AutoGPT与BabyAGI.md

阅读重点：

它们不是严格论文证据。
重点看目标发散、循环失控、权限过大、成本失控。
现代系统应从可控任务队列和审批机制开始。

8. 参考链接

资料	URL	可信度	备注
ReAct	https://arxiv.org/abs/2210.03629	A	原始论文
ReAct project page	https://react-lm.github.io/	A	作者项目页
Toolformer	https://arxiv.org/abs/2302.04761	A	原始论文
Meta Toolformer page	https://ai.meta.com/research/publications/toolformer-language-models-can-teach-themselves-to-use-tools/	A	官方研究页
Reflexion	https://arxiv.org/abs/2303.11366	A	原始论文
Reflexion repository	https://github.com/noahshinn/reflexion	A	作者仓库
Generative Agents	https://arxiv.org/abs/2304.03442	A	原始论文
Generative Agents ACM page	https://dl.acm.org/doi/10.1145/3586183.3606763	A	会议论文页
Tree of Thoughts	https://arxiv.org/abs/2305.10601	A	原始论文
Tree of Thoughts repository	https://github.com/princeton-nlp/tree-of-thought-llm	A	作者仓库
Voyager	https://arxiv.org/abs/2305.16291	A	原始论文
Voyager project page	https://voyager.minedojo.org/	A	作者项目页
AutoGPT	https://github.com/Significant-Gravitas/AutoGPT	S/A	官方仓库，工程实践
BabyAGI	https://github.com/yoheinakajima/babyagi	S/A	官方仓库，工程实践

9. 使用提醒

论文结论要保留任务、模型、工具、环境和评测设置。
不要用论文证明某个当前商业平台具备某功能。
不要用开源 demo 证明生产可靠性。
需要工程落地时，必须结合官方文档、安全资料和本地评测。

10. 权威资料

arXiv: https://arxiv.org/
ACM Digital Library: https://dl.acm.org/
经典论文与方法目录：../14-经典论文与方法/README.md
核对日期：2026-05-09

1. 可信度与阅读方式
2. 推理与行动
3. 工具调用与外部能力
4. 规划与搜索
5. 反思、记忆与学习
6. 开放式探索与技能积累
7. 早期开源实践
8. 参考链接
9. 使用提醒
10. 权威资料