跳到主要内容

Voyager

Voyager 是一篇面向 Minecraft 的开放式具身 Agent 论文。

它讨论的问题不是“聊天模型如何回答问题”,而是模型如何在一个可交互环境中持续探索、积累技能,并把成功经验转化为可复用代码。

对 Agent 工程来说,Voyager 的价值主要有三点:

  • 自动课程生成可以让 Agent 选择下一步探索目标。
  • 技能库可以把成功动作沉淀成可检索资产。
  • 环境反馈和执行错误可以驱动迭代修正。

但 Voyager 的边界同样清楚:

  • Minecraft 是可模拟、反馈明确、动作可脚本化的环境。
  • 这不等同于真实企业系统中的开放互联网、内部工具和高风险业务流程。
  • 技能自动入库如果没有验证和审计,会污染后续任务。

1. 背景问题

很多 Agent 原型只能完成单次任务。

任务结束后,经验不会被可靠保存。

下一次遇到类似问题时,系统仍然从零开始生成计划、代码或工具调用。

开放式环境带来更大的挑战:

  • 目标不是固定的单题答案。
  • 环境状态持续变化。
  • 可行动作数量很大。
  • 长期探索需要形成技能积累。
  • 失败和错误是学习过程的一部分。

Voyager 试图回答:

一个语言模型驱动的 Agent 能否在开放环境中持续发现目标、编写可执行技能、从反馈中修正,并把成功技能保存下来供以后复用。

2. 一句话结论

Voyager 的核心不是“自主玩 Minecraft”,而是“自动课程 + 代码生成 + 环境反馈 + 技能库”的闭环;它适合启发可验证技能沉淀系统,但不能直接迁移为无边界自主业务 Agent。

3. 方法结构

论文中的关键组件:

组件作用工程映射
Automatic Curriculum根据当前能力选择新目标任务生成器、探索策略、优先级系统
Skill Library保存成功代码技能可复用脚本库、操作模板、修复模式库
Iterative Prompting根据错误反馈修正代码失败重试、测试反馈、编译错误修复
Environment Feedback提供状态、奖励或错误测试结果、日志、监控、工具返回

4. 实验设置与证据边界

Voyager 的实验环境是 Minecraft。

Minecraft 对 Agent 研究很有价值,因为它具备:

  • 长期探索目标。
  • 多样化物品和技能。
  • 可观察环境状态。
  • 可执行代码接口。
  • 相对明确的成功反馈。

论文评估了多个维度。

包括:

  • 探索范围。
  • 解锁物品数量。
  • 技能库规模。
  • 长期进展速度。
  • 与其他基线方法的对比。

论文证据支持的判断是:

  • LLM 可以帮助生成可执行探索技能。
  • 成功技能入库后可以被后续任务复用。
  • 自动课程可以推动开放式进展。
  • 环境反馈可以驱动代码迭代修正。

证据不支持的判断是:

  • Agent 可以在任意真实环境中安全自主探索。
  • 自动生成技能可以不经测试直接复用。
  • 技能数量越多系统越可靠。
  • 开放式探索本身就是业务价值。

5. 核心贡献

Voyager 的核心贡献可以分为四类。

第一是开放式目标生成。

它不是给定固定 benchmark 题目,而是让系统根据当前状态提出下一步探索目标。

第二是可执行技能沉淀。

它把成功经验保存成代码技能,而不是只保存自然语言总结。

第三是反馈驱动修正。

代码执行失败后,错误信息会进入下一轮生成。

第四是长期能力积累。

Agent 的能力不是只存在于一次上下文窗口中,而是沉淀到可检索技能库。

6. 局限表

局限论文环境中的特点生产影响缓解方式
环境反馈清晰Minecraft 可执行、可观察、可重复业务系统反馈往往延迟、模糊或不可逆先选可测试、可回放、低风险场景
动作可脚本化技能主要是代码动作真实系统工具有权限、审计和副作用工具层加入权限、幂等、审批和回滚
成功判定相对直接获得物品、完成探索可检测企业任务成功标准常含主观判断明确验收条件和 evaluator
技能库可能污染错误技能会影响后续检索复用错误脚本造成连锁失败入库前测试、版本管理、人工抽检
开放探索成本高长期运行消耗模型调用和环境执行生产成本可能失控设置预算、优先级和收益阈值
安全议题有限游戏环境风险低真实工具可能访问敏感数据或执行变更沙箱、最小权限和高风险动作禁止自动探索

7. 今天工程系统如何借鉴

Voyager 最值得借鉴的是“技能库”思想。

技能库不是普通文档库。

一个合格技能应包含:

  • 适用场景。
  • 输入条件。
  • 依赖工具。
  • 执行步骤。
  • 代码或脚本。
  • 测试结果。
  • 失败案例。
  • 版本和维护人。
  • 安全权限要求。

示例结构:

{
"skill_id": "fix-vite-env-types",
"name": "修复 Vite 环境类型缺失",
"task_type": "frontend_build_fix",
"preconditions": [
"项目使用 Vite",
"TypeScript 报 import.meta.env 类型错误"
],
"steps": [
"检查 tsconfig include",
"确认 vite/client 类型声明",
"运行类型检查"
],
"commands": [
"npm run typecheck"
],
"validation": {
"required": true,
"evidence": "typecheck passes"
},
"risk": "low",
"version": "1.0.0"
}

这个结构比“记住以前修过 Vite”更可复用。

8. 技能入库流程

入库前要回答:

  • 这项技能解决什么问题。
  • 它依赖哪些工具和权限。
  • 它在哪些场景不适用。
  • 它是否通过自动测试。
  • 它是否可能泄漏数据或执行高风险动作。
  • 它是否与已有技能重复。

9. 不能直接照搬的地方

不要把自动课程生成等同于“让 Agent 自己决定业务目标”。

业务系统的目标通常来自用户、流程、工单或明确 KPI。

Agent 可以推荐下一步,但不应该在没有授权时自造高风险任务。

不要让技能库自动接受所有成功轨迹。

一次成功可能是偶然成功。

成功轨迹可能依赖过期环境。

代码可能有隐藏副作用。

不要把 Minecraft 中的探索指标直接迁移到企业。

企业场景更应该关注:

  • 任务成功率。
  • 复用后节省时间。
  • 技能引入的错误率。
  • 审批通过率。
  • 安全事件数量。
  • 成本收益比。

10. 评测方法

评测 Voyager 启发的系统要同时看探索、复用和安全。

指标说明适用阶段
Skill Acceptance Rate候选技能中多少通过验证入库技能沉淀
Skill Reuse Rate后续任务中技能被检索和使用的比例复用
Reuse Success Rate使用技能后任务成功率质量
Regression Failure Rate技能版本更新后失败比例维护
Exploration Cost发现新技能的平均成本探索预算
Duplicate Skill Rate重复或近似技能比例知识治理
Unsafe Skill Block Rate被安全策略拦截的技能比例安全

评测流程:

1. 选低风险、可测试的任务族。
2. 收集 Agent 成功完成任务的 trace。
3. 自动抽取候选技能。
4. 对候选技能做测试、去重和安全检查。
5. 在新任务上评估技能复用是否提升成功率和效率。
6. 对失败复用样本做人工复盘。

11. 安全与治理

Voyager 给生产系统带来的最大提醒是:自我扩展能力必须治理。

风险包括:

  • Agent 写入危险脚本。
  • 技能中硬编码敏感路径或密钥。
  • 错误技能被高频复用。
  • 技能描述被注入恶意提示。
  • 技能库检索越权暴露内部流程。
  • 自动探索消耗大量预算。

治理要求:

  • 技能库按权限分区。
  • 技能代码进入版本管理。
  • 高风险技能需要人工审核。
  • 技能执行必须在沙箱或受控环境。
  • 技能检索要根据用户权限过滤。
  • 技能失效后要支持下架。

12. 适用与不适用场景

适用场景:

  • 开发者助手沉淀项目修复模式。
  • 运维助手沉淀低风险诊断脚本。
  • 数据分析助手沉淀可复用查询模板。
  • 游戏、仿真、机器人等可观察环境。
  • 内部工具链中可测试、可回放的任务。

不适用场景:

  • 生产数据库写操作自动探索。
  • 财务、采购、权限变更等高影响动作。
  • 没有测试和审计的脚本自动入库。
  • 成功标准含糊、反馈滞后的业务流程。

13. 与其他方法的关系

ReAct 提供推理和行动交替的基础循环。

Reflexion 提供失败反馈和经验记忆。

Voyager 把这类反馈进一步固化为可执行技能库。

Tree of Thoughts 可以为目标或方案选择提供搜索。

Generative Agents 的记忆流思想也可用于管理长期经验,但 Voyager 更强调可执行技能。

14. 权威资料