跳到主要内容

综合实战项目

核对日期:2026-05-13。

不稳定项:模型 API、前端 AI SDK、RAG 框架、Agent 框架、部署平台、评测工具和安全规范变化较快;实战项目实现前应重新核对目标技术栈官方文档。

1. 阶段目标

本阶段目标是综合运用前面所有能力,完成一个可展示、可评测、可复盘的 AI 系统项目。最终作品不是“能聊天”的 demo,而是一个能说明产品判断、系统设计、数据处理、模型调用、评测、安全、成本和生产化思考的完整工程作品。

学完本阶段,你应该能做到:

  • 从真实业务场景中选择一个合适的 AI 项目。
  • 明确用户、任务、成功标准、风险等级和非目标。
  • 设计系统架构:数据流、控制流、模型流、审计流和回滚路径。
  • 实现一个最小可用 AI 系统:RAG、Workflow 或 Agent 至少一种。
  • 建立评测集、安全测试和失败样例库。
  • 输出成本、延迟、token、错误和用户反馈指标。
  • 完成作品集文档、演示脚本和答辩材料。
  • 能解释为什么这样设计,而不是堆模型、堆框架或堆 Agent。

本阶段的核心产出是:

  • 一个综合 AI 项目。
  • 一份项目 README。
  • 一份系统设计文档。
  • 一份评测报告。
  • 一份安全评审。
  • 一份演示和答辩材料。

2. 学习前置条件

建议已完成:

  • 阶段 01-13 全部内容。
  • 至少完成过一个 Prompt 模板库。
  • 至少完成过一个 RAG 或 AI 应用工程练习。
  • 理解 Agent、评测、安全、LLMOps 和 AI 产品立项。

不要求:

  • 一次做出企业级平台。
  • 必须使用最贵或最强模型。
  • 必须做多 Agent。
  • 必须上线到公网。

3. 核心知识地图

4. 详细讲义

4.1 综合项目的定位

综合项目要证明你具备系统能力:

  • 能选场景。
  • 能做架构。
  • 能接模型。
  • 能处理数据。
  • 能做评测。
  • 能控制风险。
  • 能解释成本。
  • 能复盘失败。

一个合格项目可以很小,但不能只有 UI。它必须有完整闭环。

4.2 项目分级

等级特征适合
L1 练习级单 Prompt 或单模型调用初学验证
L2 应用级有前后端、结构化输出、日志AI 应用工程
L3 RAG 级有文档导入、检索、引用、拒答知识系统
L4 Agent 级有工具、状态、HITL、轨迹评测多步任务
L5 生产化级有评测、安全、成本、灰度、回滚作品集/真实落地

课程最终建议做到 L4-L5 之间:不一定公网生产上线,但要有生产化思考。

4.3 项目选题标准

好选题满足:

  • 用户和任务明确。
  • 数据能获得。
  • 输出可验证。
  • 有失败样例。
  • 能展示系统设计。
  • 风险可控。
  • 能在 1-3 周内完成 MVP。

不建议:

  • 通用聊天机器人。
  • 没有知识源的“万能助手”。
  • 自动交易、医疗诊断、法律结论等高风险项目。
  • 只能展示模型回答,不能说明评测和系统边界的项目。

4.4 推荐项目方向

方向 A:企业知识库问答系统

能力覆盖:

  • RAG。
  • 引用。
  • 拒答。
  • 权限。
  • 评测。
  • 前端体验。

适合展示:知识系统、检索质量、引用和 groundedness。

方向 B:代码库分析 Agent

能力覆盖:

  • 代码搜索。
  • 文件读取。
  • Agent loop。
  • 只读工具权限。
  • 文件引用。
  • 轨迹评测。

适合展示:Agent 设计、工具 schema、控制流和安全边界。

方向 C:客服工单辅助 Agent

能力覆盖:

  • 工单分类。
  • 知识库检索。
  • 回复草稿。
  • 人工确认。
  • 安全和审计。

适合展示:产品落地、HITL、业务流程和 ROI。

方向 D:数据分析助手

能力覆盖:

  • 指标字典。
  • SQL 草稿。
  • 只读执行。
  • 图表和解释。
  • 数据权限。

适合展示:工具调用、数据安全和可验证输出。

方向 E:研究报告生成系统

能力覆盖:

  • 资料检索。
  • 来源引用。
  • 大纲生成。
  • 事实核对。
  • 报告生成。

适合展示:长任务、引用管理和多步骤 Workflow。

4.5 项目设计原则

原则说明
先窄后深选小场景,做完整链路
人类可控高风险输出人工确认
证据优先关键结论有来源
失败可见展示失败类型和复盘
成本可算记录 token、延迟和调用成本
安全可审权限、日志和边界清楚
评测驱动用 eval 决定改进

4.6 系统架构必须包含什么

综合项目架构至少包含:

  • 用户入口:Web、CLI、Bot 或内部工具。
  • 应用 API:鉴权、任务管理、请求处理。
  • Prompt / Context Builder。
  • 模型调用层。
  • RAG 或工具层。
  • 存储:会话、任务、评测、日志。
  • 可观测:trace、token、成本、延迟。
  • 安全:权限、脱敏、审批。
  • 评测:离线评测集和结果。

推荐架构图:

4.7 README 应该怎么写

项目 README 是作品集入口,必须让评审者快速理解。

结构:

# 项目名称

## 1. 一句话介绍
## 2. 解决的问题
## 3. 核心功能
## 4. 系统架构
## 5. 技术栈
## 6. 运行方式
## 7. Demo 流程
## 8. 评测结果
## 9. 安全和成本
## 10. 已知限制
## 11. 下一步计划

README 不要只写安装命令,也不要只放截图。要展示你的系统思考。

4.8 需求文档

需求文档回答:

  • 谁使用。
  • 解决什么任务。
  • 当前怎么做。
  • AI 帮助哪一步。
  • 成功标准是什么。
  • 不做什么。
  • 风险是什么。

需求文档模板:

# 项目需求文档

## 1. 用户画像
## 2. 当前流程
## 3. 痛点
## 4. AI 介入点
## 5. MVP 范围
## 6. 非目标
## 7. 成功指标
## 8. 风险和边界

4.9 评测集设计

综合项目至少 30 条 eval:

类型数量建议
正常样例12
边界样例6
缺信息/拒答4
安全负例4
历史失败/人工构造失败4

每条样例包含:

  • id。
  • 输入。
  • 期望行为。
  • 必须引用或工具。
  • 是否拒答。
  • 风险等级。
  • 标签。
  • 评分结果。

4.10 评测报告

评测报告必须包含:

  • 被测版本。
  • 模型和 Prompt 版本。
  • 数据集版本。
  • 总体通过率。
  • 分类型指标。
  • 成本和延迟。
  • 失败样例。
  • 根因分析。
  • 下一步改进。

不要只报一个准确率。要说明系统失败在哪里。

4.11 安全评审

综合项目必须做安全评审,即使只是本地 demo。

至少覆盖:

  • 信任边界。
  • 数据分类。
  • 权限模型。
  • RAG 文档污染。
  • Prompt injection。
  • 工具越权。
  • 输出处理。
  • 日志脱敏。
  • 人工确认。
  • 回滚和停用。

4.12 成本和性能分析

记录:

  • 平均 input tokens。
  • 平均 output tokens。
  • 平均延迟。
  • 首 token 延迟。
  • RAG 检索耗时。
  • 工具调用耗时。
  • 单任务估算成本。
  • 高成本样例。

成本分析不是为了省到最低,而是证明你知道系统上线后的资源画像。

4.13 失败样例库

失败样例库字段:

字段说明
id失败样例 ID
input输入
output实际输出
expected期望行为
category失败类别
root_cause根因
fix修复方案
regression是否进入回归集

失败样例比成功 demo 更能证明工程能力。

4.14 答辩材料

答辩时重点讲:

  1. 为什么选这个场景。
  2. 为什么选择当前技术方案。
  3. 系统怎么工作。
  4. 如何评测。
  5. 失败在哪里。
  6. 如何控制安全风险。
  7. 成本和延迟如何。
  8. 如果上线还缺什么。

不要只演示“问一句答一句”。要展示你对系统边界的掌握。

4.15 项目计划

建议 3 周计划:

周期目标产出
第 1 周场景和设计PRD、架构图、eval 初版
第 2 周MVP 实现RAG/Workflow/Agent、基础 UI、日志
第 3 周评测和完善评测报告、安全评审、README、演示

如果时间只有 3-5 天,缩小范围,不要牺牲评测和安全文档。

5. 关键概念表

概念含义验收方式常见问题
Capstone综合作品项目功能、文档、评测齐全只有 demo
PRD需求文档用户、场景、指标清楚范围太大
Architecture doc架构文档数据流、控制流、风险清楚只画 UI
Eval report评测报告指标、失败、改进完整只报准确率
Security review安全评审信任边界和权限清楚上线后再补
Cost report成本报告token、延迟、单任务成本无观测
Failure library失败样例库可复盘、可回归只展示成功
Demo script演示脚本能稳定展示核心价值临场随意
Portfolio作品集体现系统能力只堆技术名词

6. 工程案例

6.1 企业知识库问答系统

功能:

  • 文档导入。
  • chunk 和 embedding。
  • 混合检索。
  • 带引用回答。
  • 证据不足拒答。
  • 用户反馈。

验收:

  • recall@5。
  • 引用支持率。
  • 拒答准确率。
  • 平均延迟。
  • 单次成本。

6.2 代码库分析 Agent

功能:

  • 搜索文件。
  • 读取代码。
  • 分析调用链。
  • 输出风险和引用。
  • 只读权限。

验收:

  • 是否定位正确文件。
  • 是否引用真实路径。
  • 是否避免越权写入。
  • 工具轨迹是否合理。

6.3 客服工单辅助 Agent

功能:

  • 工单分类。
  • 知识库检索。
  • 回复草稿。
  • 人工确认。
  • 审计记录。

验收:

  • 分类准确率。
  • 草稿采纳率。
  • 错误承诺率。
  • 高风险工单升级率。

6.4 数据分析助手

功能:

  • 读取指标字典。
  • 生成 SQL 草稿。
  • 只读执行。
  • 输出图表和解释。
  • 保存查询和结果。

验收:

  • SQL 正确率。
  • 指标口径一致性。
  • 查询安全。
  • 结论是否被数据支持。

6.5 研究报告生成系统

功能:

  • 资料搜索。
  • 来源筛选。
  • 大纲生成。
  • 引用管理。
  • 报告生成。

验收:

  • 来源权威性。
  • 引用覆盖。
  • 事实错误率。
  • 信息核对日期。

7. 常见误区与反模式

反模式表现后果修正
只做聊天框没有业务流程无法体现能力选真实任务
没有评测凭感觉说好不可信建 eval 集
没有失败样例只展示成功无法复盘建失败库
强行用 Agent固定流程也做自主 Agent成本高、风险大用 Workflow
无安全评审不考虑越权和泄漏不能上线做信任边界
无成本分析不记录 token无法运营建成本账本
文档太薄只写运行命令评审看不懂设计写架构和报告
演示不可复现临场依赖随机输出容易翻车固定 demo 样例
技术栈堆砌名词很多但链路不清显得不专业解释取舍

8. 阶段练习

8.1 项目需求文档

写一份 PRD,包含:

  • 用户。
  • 当前流程。
  • 痛点。
  • AI 介入点。
  • MVP。
  • 非目标。
  • 成功指标。

8.2 架构图

画出:

  • 数据流。
  • 控制流。
  • 模型调用流。
  • 权限和审计流。
  • 失败回滚路径。

8.3 评测集

设计 30 条 eval,覆盖:

  • 正常。
  • 边界。
  • 拒答。
  • 安全。
  • 历史失败。

8.4 安全评审

完成一份安全评审:

  • 信任边界。
  • 数据分类。
  • 工具权限。
  • prompt injection。
  • 日志和缓存。
  • 人工确认。

8.5 作品集答辩

准备 10 分钟答辩:

  • 2 分钟场景和价值。
  • 3 分钟架构和核心功能。
  • 2 分钟评测和失败。
  • 2 分钟安全和生产化。
  • 1 分钟下一步。

9. 项目任务

9.1 项目要求

完成一个综合 AI 项目。

必须提交:

  • README.md
  • docs/requirements.md
  • docs/architecture.md
  • docs/evaluation.md
  • docs/security-review.md
  • docs/cost-and-ops.md
  • evals/ 评测样例。
  • examples/ 演示输入输出。
  • 可运行代码或清晰伪代码。
  • 演示脚本或录屏说明。

可直接复用本阶段提供的 项目脚手架,其中已包含需求、架构、评测、安全、成本、Prompt、演示和实现目录模板。

如果你想先看一份填好的作品集样例,可以阅读 示例项目:企业知识库问答系统。它用合成企业知识库场景演示需求、架构、评测、安全、成本和演示材料如何组织。

9.2 最低功能要求

至少满足一种:

  • RAG 系统:文档导入、检索、引用、拒答、评测。
  • Workflow 系统:多步骤任务、结构化输出、校验、日志。
  • Agent 系统:工具、状态、最大步数、HITL、轨迹评测。

同时必须包含:

  • Prompt 版本。
  • 模型调用日志。
  • 失败处理。
  • 安全负例。
  • 成本估算。

9.3 最终评分 Rubric

维度分值标准
场景和产品判断15用户、任务、价值、非目标清晰
系统架构20数据流、控制流、模型流、权限流完整
功能实现15MVP 能完成真实任务
评测体系20eval、指标、失败样例和报告完整
安全治理15信任边界、权限、注入、日志、回滚清楚
生产化思考10成本、延迟、监控、灰度和运维明确
表达和答辩5文档清楚,演示可复现,取舍讲得明白

9.4 加分项

  • 有真实用户反馈。
  • 有自动化评测脚本。
  • 有 trace 可视化。
  • 有多模型路由对比。
  • 有失败样例复盘。
  • 有清晰 ROI 测算。
  • 有可部署版本。

10. 验收题

  1. 你的项目为什么需要 AI,而不是普通规则或传统软件?
  2. 目标用户是谁,任务是什么?
  3. 你为什么选择 RAG、Workflow 或 Agent?
  4. 你的系统成功标准是什么?
  5. 你的评测集覆盖了哪些正常、边界和安全样例?
  6. 你的失败样例说明了什么?
  7. 安全边界在哪里,哪些动作需要人工确认?
  8. 如果模型输出错误,用户如何发现和回退?
  9. 如果上线,如何监控成本、延迟和质量?
  10. 下一步最值得改进的 3 件事是什么?

11. 延伸阅读

综合资料

建议阅读方式

  • 回看阶段 07、09、10、11、12,把 RAG、Agent、评测、安全和 LLMOps 合并进项目文档。
  • 不要等实现完成才写评测和安全,它们应该从设计阶段就存在。
  • 用失败样例驱动项目成熟,而不是只优化演示样例。

12. 本阶段总结

综合项目是这套课程的最终验收。它考察的不是你会不会调用模型,而是你能不能把 AI 能力放进真实系统:有场景、有架构、有数据、有评测、有安全、有成本、有复盘。

一个强作品集项目应该能让评审者看到:你知道 AI 能做什么,也知道 AI 不能做什么;你能做出 demo,也能解释上线前还缺什么;你不仅追求模型输出,更追求系统可靠。