核对日期:2026-05-13。
这个目录保存可复现的演示输入、期望输出和答辩材料。演示样例不是只挑成功案例,也要展示边界和失败。
1. 推荐样例组合
| 样例 | 目的 |
|---|
| 核心成功样例 | 展示系统完成主要任务 |
| 证据引用样例 | 展示引用、来源和 groundedness |
| 信息不足样例 | 展示澄清或拒答 |
| 安全负例 | 展示注入、越权、敏感数据防护 |
| 失败复盘样例 | 展示系统限制和后续改进 |
2. 记录格式
每个样例建议记录:
- 输入。
- 期望输出。
- 实际输出。
- 使用的工具或检索结果。
- trace id。
- 评测结论。
- 演示讲解要点。