综合实战项目

核对日期：2026-05-13。

不稳定项：模型 API、前端 AI SDK、RAG 框架、Agent 框架、部署平台、评测工具和安全规范变化较快；实战项目实现前应重新核对目标技术栈官方文档。

1. 阶段目标

本阶段目标是综合运用前面所有能力，完成一个可展示、可评测、可复盘的 AI 系统项目。最终作品不是“能聊天”的 demo，而是一个能说明产品判断、系统设计、数据处理、模型调用、评测、安全、成本和生产化思考的完整工程作品。

学完本阶段，你应该能做到：

从真实业务场景中选择一个合适的 AI 项目。
明确用户、任务、成功标准、风险等级和非目标。
设计系统架构：数据流、控制流、模型流、审计流和回滚路径。
实现一个最小可用 AI 系统：RAG、Workflow 或 Agent 至少一种。
建立评测集、安全测试和失败样例库。
输出成本、延迟、token、错误和用户反馈指标。
完成作品集文档、演示脚本和答辩材料。
能解释为什么这样设计，而不是堆模型、堆框架或堆 Agent。

本阶段的核心产出是：

一个综合 AI 项目。
一份项目 README。
一份系统设计文档。
一份评测报告。
一份安全评审。
一份演示和答辩材料。

2. 学习前置条件

建议已完成：

阶段 01-13 全部内容。
至少完成过一个 Prompt 模板库。
至少完成过一个 RAG 或 AI 应用工程练习。
理解 Agent、评测、安全、LLMOps 和 AI 产品立项。

不要求：

一次做出企业级平台。
必须使用最贵或最强模型。
必须做多 Agent。
必须上线到公网。

3. 核心知识地图

4. 详细讲义

4.1 综合项目的定位

综合项目要证明你具备系统能力：

能选场景。
能做架构。
能接模型。
能处理数据。
能做评测。
能控制风险。
能解释成本。
能复盘失败。

一个合格项目可以很小，但不能只有 UI。它必须有完整闭环。

4.2 项目分级

等级	特征	适合
L1 练习级	单 Prompt 或单模型调用	初学验证
L2 应用级	有前后端、结构化输出、日志	AI 应用工程
L3 RAG 级	有文档导入、检索、引用、拒答	知识系统
L4 Agent 级	有工具、状态、HITL、轨迹评测	多步任务
L5 生产化级	有评测、安全、成本、灰度、回滚	作品集/真实落地

课程最终建议做到 L4-L5 之间：不一定公网生产上线，但要有生产化思考。

4.3 项目选题标准

好选题满足：

用户和任务明确。
数据能获得。
输出可验证。
有失败样例。
能展示系统设计。
风险可控。
能在 1-3 周内完成 MVP。

不建议：

通用聊天机器人。
没有知识源的“万能助手”。
自动交易、医疗诊断、法律结论等高风险项目。
只能展示模型回答，不能说明评测和系统边界的项目。

4.4 推荐项目方向

方向 A：企业知识库问答系统

能力覆盖：

RAG。
引用。
拒答。
权限。
评测。
前端体验。

适合展示：知识系统、检索质量、引用和 groundedness。

方向 B：代码库分析 Agent

能力覆盖：

代码搜索。
文件读取。
Agent loop。
只读工具权限。
文件引用。
轨迹评测。

适合展示：Agent 设计、工具 schema、控制流和安全边界。

方向 C：客服工单辅助 Agent

能力覆盖：

工单分类。
知识库检索。
回复草稿。
人工确认。
安全和审计。

适合展示：产品落地、HITL、业务流程和 ROI。

方向 D：数据分析助手

能力覆盖：

指标字典。
SQL 草稿。
只读执行。
图表和解释。
数据权限。

适合展示：工具调用、数据安全和可验证输出。

方向 E：研究报告生成系统

能力覆盖：

资料检索。
来源引用。
大纲生成。
事实核对。
报告生成。

适合展示：长任务、引用管理和多步骤 Workflow。

4.5 项目设计原则

原则	说明
先窄后深	选小场景，做完整链路
人类可控	高风险输出人工确认
证据优先	关键结论有来源
失败可见	展示失败类型和复盘
成本可算	记录 token、延迟和调用成本
安全可审	权限、日志和边界清楚
评测驱动	用 eval 决定改进

4.6 系统架构必须包含什么

综合项目架构至少包含：

用户入口：Web、CLI、Bot 或内部工具。
应用 API：鉴权、任务管理、请求处理。
Prompt / Context Builder。
模型调用层。
RAG 或工具层。
存储：会话、任务、评测、日志。
可观测：trace、token、成本、延迟。
安全：权限、脱敏、审批。
评测：离线评测集和结果。

推荐架构图：

4.7 README 应该怎么写

项目 README 是作品集入口，必须让评审者快速理解。

结构：

# 项目名称

## 1. 一句话介绍
## 2. 解决的问题
## 3. 核心功能
## 4. 系统架构
## 5. 技术栈
## 6. 运行方式
## 7. Demo 流程
## 8. 评测结果
## 9. 安全和成本
## 10. 已知限制
## 11. 下一步计划

README 不要只写安装命令，也不要只放截图。要展示你的系统思考。

4.8 需求文档

需求文档回答：

谁使用。
解决什么任务。
当前怎么做。
AI 帮助哪一步。
成功标准是什么。
不做什么。
风险是什么。

需求文档模板：

# 项目需求文档

## 1. 用户画像
## 2. 当前流程
## 3. 痛点
## 4. AI 介入点
## 5. MVP 范围
## 6. 非目标
## 7. 成功指标
## 8. 风险和边界

4.9 评测集设计

综合项目至少 30 条 eval：

类型	数量建议
正常样例	12
边界样例	6
缺信息/拒答	4
安全负例	4
历史失败/人工构造失败	4

每条样例包含：

id。
输入。
期望行为。
必须引用或工具。
是否拒答。
风险等级。
标签。
评分结果。

4.10 评测报告

评测报告必须包含：

被测版本。
模型和 Prompt 版本。
数据集版本。
总体通过率。
分类型指标。
成本和延迟。
失败样例。
根因分析。
下一步改进。

不要只报一个准确率。要说明系统失败在哪里。

4.11 安全评审

综合项目必须做安全评审，即使只是本地 demo。

至少覆盖：

信任边界。
数据分类。
权限模型。
RAG 文档污染。
Prompt injection。
工具越权。
输出处理。
日志脱敏。
人工确认。
回滚和停用。

4.12 成本和性能分析

记录：

平均 input tokens。
平均 output tokens。
平均延迟。
首 token 延迟。
RAG 检索耗时。
工具调用耗时。
单任务估算成本。
高成本样例。

成本分析不是为了省到最低，而是证明你知道系统上线后的资源画像。

4.13 失败样例库

失败样例库字段：

字段	说明
id	失败样例 ID
input	输入
output	实际输出
expected	期望行为
category	失败类别
root_cause	根因
fix	修复方案
regression	是否进入回归集

失败样例比成功 demo 更能证明工程能力。

4.14 答辩材料

答辩时重点讲：

为什么选这个场景。
为什么选择当前技术方案。
系统怎么工作。
如何评测。
失败在哪里。
如何控制安全风险。
成本和延迟如何。
如果上线还缺什么。

不要只演示“问一句答一句”。要展示你对系统边界的掌握。

4.15 项目计划

建议 3 周计划：

周期	目标	产出
第 1 周	场景和设计	PRD、架构图、eval 初版
第 2 周	MVP 实现	RAG/Workflow/Agent、基础 UI、日志
第 3 周	评测和完善	评测报告、安全评审、README、演示

如果时间只有 3-5 天，缩小范围，不要牺牲评测和安全文档。

5. 关键概念表

概念	含义	验收方式	常见问题
Capstone	综合作品项目	功能、文档、评测齐全	只有 demo
PRD	需求文档	用户、场景、指标清楚	范围太大
Architecture doc	架构文档	数据流、控制流、风险清楚	只画 UI
Eval report	评测报告	指标、失败、改进完整	只报准确率
Security review	安全评审	信任边界和权限清楚	上线后再补
Cost report	成本报告	token、延迟、单任务成本	无观测
Failure library	失败样例库	可复盘、可回归	只展示成功
Demo script	演示脚本	能稳定展示核心价值	临场随意
Portfolio	作品集	体现系统能力	只堆技术名词

6. 工程案例

6.1 企业知识库问答系统

功能：

文档导入。
chunk 和 embedding。
混合检索。
带引用回答。
证据不足拒答。
用户反馈。

验收：

recall@5。
引用支持率。
拒答准确率。
平均延迟。
单次成本。

6.2 代码库分析 Agent

功能：

搜索文件。
读取代码。
分析调用链。
输出风险和引用。
只读权限。

验收：

是否定位正确文件。
是否引用真实路径。
是否避免越权写入。
工具轨迹是否合理。

6.3 客服工单辅助 Agent

功能：

工单分类。
知识库检索。
回复草稿。
人工确认。
审计记录。

验收：

分类准确率。
草稿采纳率。
错误承诺率。
高风险工单升级率。

6.4 数据分析助手

功能：

读取指标字典。
生成 SQL 草稿。
只读执行。
输出图表和解释。
保存查询和结果。

验收：

SQL 正确率。
指标口径一致性。
查询安全。
结论是否被数据支持。

6.5 研究报告生成系统

功能：

资料搜索。
来源筛选。
大纲生成。
引用管理。
报告生成。

验收：

来源权威性。
引用覆盖。
事实错误率。
信息核对日期。

7. 常见误区与反模式

反模式	表现	后果	修正
只做聊天框	没有业务流程	无法体现能力	选真实任务
没有评测	凭感觉说好	不可信	建 eval 集
没有失败样例	只展示成功	无法复盘	建失败库
强行用 Agent	固定流程也做自主 Agent	成本高、风险大	用 Workflow
无安全评审	不考虑越权和泄漏	不能上线	做信任边界
无成本分析	不记录 token	无法运营	建成本账本
文档太薄	只写运行命令	评审看不懂设计	写架构和报告
演示不可复现	临场依赖随机输出	容易翻车	固定 demo 样例
技术栈堆砌	名词很多但链路不清	显得不专业	解释取舍

8. 阶段练习

8.1 项目需求文档

写一份 PRD，包含：

用户。
当前流程。
痛点。
AI 介入点。
MVP。
非目标。
成功指标。

8.2 架构图

画出：

数据流。
控制流。
模型调用流。
权限和审计流。
失败回滚路径。

8.3 评测集

设计 30 条 eval，覆盖：

正常。
边界。
拒答。
安全。
历史失败。

8.4 安全评审

完成一份安全评审：

信任边界。
数据分类。
工具权限。
prompt injection。
日志和缓存。
人工确认。

8.5 作品集答辩

准备 10 分钟答辩：

2 分钟场景和价值。
3 分钟架构和核心功能。
2 分钟评测和失败。
2 分钟安全和生产化。
1 分钟下一步。

9. 项目任务

9.1 项目要求

完成一个综合 AI 项目。

必须提交：

README.md。
docs/requirements.md。
docs/architecture.md。
docs/evaluation.md。
docs/security-review.md。
docs/cost-and-ops.md。
evals/ 评测样例。
examples/ 演示输入输出。
可运行代码或清晰伪代码。
演示脚本或录屏说明。

可直接复用本阶段提供的项目脚手架，其中已包含需求、架构、评测、安全、成本、Prompt、演示和实现目录模板。

如果你想先看一份填好的作品集样例，可以阅读示例项目：企业知识库问答系统。它用合成企业知识库场景演示需求、架构、评测、安全、成本和演示材料如何组织。

9.2 最低功能要求

至少满足一种：

RAG 系统：文档导入、检索、引用、拒答、评测。
Workflow 系统：多步骤任务、结构化输出、校验、日志。
Agent 系统：工具、状态、最大步数、HITL、轨迹评测。

同时必须包含：

Prompt 版本。
模型调用日志。
失败处理。
安全负例。
成本估算。

9.3 最终评分 Rubric

维度	分值	标准
场景和产品判断	15	用户、任务、价值、非目标清晰
系统架构	20	数据流、控制流、模型流、权限流完整
功能实现	15	MVP 能完成真实任务
评测体系	20	eval、指标、失败样例和报告完整
安全治理	15	信任边界、权限、注入、日志、回滚清楚
生产化思考	10	成本、延迟、监控、灰度和运维明确
表达和答辩	5	文档清楚，演示可复现，取舍讲得明白

9.4 加分项

有真实用户反馈。
有自动化评测脚本。
有 trace 可视化。
有多模型路由对比。
有失败样例复盘。
有清晰 ROI 测算。
有可部署版本。

10. 验收题

你的项目为什么需要 AI，而不是普通规则或传统软件？
目标用户是谁，任务是什么？
你为什么选择 RAG、Workflow 或 Agent？
你的系统成功标准是什么？
你的评测集覆盖了哪些正常、边界和安全样例？
你的失败样例说明了什么？
安全边界在哪里，哪些动作需要人工确认？
如果模型输出错误，用户如何发现和回退？
如果上线，如何监控成本、延迟和质量？
下一步最值得改进的 3 件事是什么？

11. 延伸阅读

综合资料

OpenAI Evals guide: https://developers.openai.com/api/docs/guides/evals
Anthropic Building effective agents: https://www.anthropic.com/engineering/building-effective-agents
OWASP Top 10 for LLM Applications: https://genai.owasp.org/llm-top-10/
OpenTelemetry Documentation: https://opentelemetry.io/docs/
Google People + AI Guidebook: https://pair.withgoogle.com/guidebook/

建议阅读方式

回看阶段 07、09、10、11、12，把 RAG、Agent、评测、安全和 LLMOps 合并进项目文档。
不要等实现完成才写评测和安全，它们应该从设计阶段就存在。
用失败样例驱动项目成熟，而不是只优化演示样例。

12. 本阶段总结

综合项目是这套课程的最终验收。它考察的不是你会不会调用模型，而是你能不能把 AI 能力放进真实系统：有场景、有架构、有数据、有评测、有安全、有成本、有复盘。

一个强作品集项目应该能让评审者看到：你知道 AI 能做什么，也知道 AI 不能做什么；你能做出 demo，也能解释上线前还缺什么；你不仅追求模型输出，更追求系统可靠。

1. 阶段目标​

2. 学习前置条件​

3. 核心知识地图​

4. 详细讲义​

4.1 综合项目的定位​

4.2 项目分级​

4.3 项目选题标准​

4.4 推荐项目方向​

方向 A：企业知识库问答系统​

方向 B：代码库分析 Agent​

方向 C：客服工单辅助 Agent​

方向 D：数据分析助手​

方向 E：研究报告生成系统​

4.5 项目设计原则​

4.6 系统架构必须包含什么​

4.7 README 应该怎么写​

4.8 需求文档​

4.9 评测集设计​

4.10 评测报告​

4.11 安全评审​

4.12 成本和性能分析​

4.13 失败样例库​

4.14 答辩材料​

4.15 项目计划​

5. 关键概念表​

6. 工程案例​

6.1 企业知识库问答系统​

6.2 代码库分析 Agent​

6.3 客服工单辅助 Agent​

6.4 数据分析助手​

6.5 研究报告生成系统​

7. 常见误区与反模式​

8. 阶段练习​

8.1 项目需求文档​

8.2 架构图​

8.3 评测集​

8.4 安全评审​

8.5 作品集答辩​

9. 项目任务​

9.1 项目要求​

9.2 最低功能要求​

9.3 最终评分 Rubric​

9.4 加分项​

10. 验收题​

11. 延伸阅读​

综合资料​

建议阅读方式​

12. 本阶段总结​

1. 阶段目标

2. 学习前置条件

3. 核心知识地图

4. 详细讲义

4.1 综合项目的定位

4.2 项目分级

4.3 项目选题标准

4.4 推荐项目方向

方向 A：企业知识库问答系统

方向 B：代码库分析 Agent

方向 C：客服工单辅助 Agent

方向 D：数据分析助手

方向 E：研究报告生成系统

4.5 项目设计原则

4.6 系统架构必须包含什么

4.7 README 应该怎么写

4.8 需求文档

4.9 评测集设计

4.10 评测报告

4.11 安全评审

4.12 成本和性能分析

4.13 失败样例库

4.14 答辩材料

4.15 项目计划

5. 关键概念表

6. 工程案例

6.1 企业知识库问答系统

6.2 代码库分析 Agent

6.3 客服工单辅助 Agent

6.4 数据分析助手

6.5 研究报告生成系统

7. 常见误区与反模式

8. 阶段练习

8.1 项目需求文档

8.2 架构图

8.3 评测集

8.4 安全评审

8.5 作品集答辩

9. 项目任务

9.1 项目要求

9.2 最低功能要求

9.3 最终评分 Rubric

9.4 加分项

10. 验收题

11. 延伸阅读

综合资料

建议阅读方式

12. 本阶段总结