模型与推理能力
本目录说明大语言模型(Large Language Model, LLM)在 Agent 系统中的工程角色、选择方法、推理能力、上下文管理、多模型路由和失败处理。核对日期:2026-05-09。
1. 阅读路径
| 文件 | 解决的问题 |
|---|---|
| LLM在Agent中的角色 | 模型在 Agent loop 中到底负责什么,不负责什么 |
| 模型选择策略 | 如何按任务、工具、风险、成本选择模型 |
| 推理模型与普通模型的差异 | 什么时候需要 reasoning model,什么时候会浪费 |
| 上下文窗口管理 | 如何预算、压缩、检索和保留关键上下文 |
| 多模型路由 | 如何让多个模型协作而不是堆复杂度 |
| 成本-延迟-质量权衡 | 如何把质量目标转成预算和 SLA |
| 模型退化与失败处理 | 如何处理输出退化、工具误调、超时和供应商故障 |
2. 能力口径
| 类型 | 本目录采用的判断方式 | 示例 |
|---|---|---|
| 官方能力 | 模型或平台官方文档明确支持,且有 API、SDK 或参数说明 | OpenAI Responses API 的工具调用、Anthropic Claude 的 tool use、Google Gemini function calling |
| 社区能力 | 由开源框架、插件、示例或第三方集成提供 | LangChain provider wrapper、CrewAI 社区工具、LlamaIndex 第三方 reader |
| 实验能力 | 官方标注 beta、experimental、preview,或 API/模型行为仍频繁变化 | Anthropic computer use beta、部分 MCP connector beta 能力、框架内实验性 agent 模块 |
| 营销说法 | 没有可验证接口、评测方法或边界条件的能力描述 | “自动完成所有复杂工作”“企业级通用自主 Agent” |
3. 模型在 Agent 中的基本定位
模型不是完整 Agent。模型通常承担语义理解、计划生成、工具选择、参数生成、结果总结和自检;Agent 系统还需要状态管理、工具执行、权限控制、观测、评测和回滚。
4. 选型总原则
- 先定义任务成功率、延迟、成本、合规和可观测性目标,再选模型。
- 工具调用任务优先验证结构化输出稳定性和 tool call accuracy,而不是只看聊天质量。
- 高风险任务需要人类在环、最小权限工具和完整 Trace,不应只靠“更强模型”解决。
- 长上下文不是无限记忆。长窗口降低截断风险,但仍需要预算、摘要、检索和引用校验。
- 多模型路由必须能回放、能评测、能降级,否则会制造不可解释的生产问题。
5. 目录内统一评测指标
| 指标 | 含义 |
|---|---|
| Task Success Rate | 任务是否完成,需按业务验收规则判定 |
| Tool Call Accuracy | 是否在正确时机调用正确工具并传入正确参数 |
| Groundedness | 输出是否被上下文、工具结果或检索证据支持 |
| Latency p95/p99 | 用户等待和队列积压风险 |
| Cost per Successful Task | 单次成功任务的实际模型与工具总成本 |
| Intervention Rate | 需要人工审批、修正或重试的比例 |
6. 安全与治理基线
模型能力设计必须默认覆盖 prompt injection、data exfiltration、tool poisoning、越权工具调用、敏感数据进入上下文、供应商故障和模型退化。高风险任务不能只靠“更强模型”解决,应在模型外部实现最小权限、审批、审计、脱敏、Trace 和回归评测。
7. 权威资料
- OpenAI Models docs: https://platform.openai.com/docs/models
- OpenAI Reasoning guide: https://platform.openai.com/docs/guides/reasoning
- OpenAI Tools guide: https://platform.openai.com/docs/guides/tools
- Anthropic Claude models overview: https://docs.anthropic.com/en/docs/about-claude/models/overview
- Anthropic tool use overview: https://docs.anthropic.com/en/docs/agents-and-tools/tool-use/overview
- Google Gemini models: https://ai.google.dev/gemini-api/docs/models
- Google Gemini function calling: https://ai.google.dev/gemini-api/docs/function-calling
- MCP specification 2025-11-25: https://modelcontextprotocol.io/specification/2025-11-25
- OWASP Top 10 for LLM Applications: https://owasp.org/www-project-top-10-for-large-language-model-applications/
- NIST AI Risk Management Framework: https://www.nist.gov/itl/ai-risk-management-framework