跳到主要内容

examples

核对日期:2026-05-13。

这个目录保存可复现的演示输入、期望输出和答辩材料。演示样例不是只挑成功案例,也要展示边界和失败。

1. 推荐样例组合

样例目的
核心成功样例展示系统完成主要任务
证据引用样例展示引用、来源和 groundedness
信息不足样例展示澄清或拒答
安全负例展示注入、越权、敏感数据防护
失败复盘样例展示系统限制和后续改进

2. 记录格式

每个样例建议记录:

  • 输入。
  • 期望输出。
  • 实际输出。
  • 使用的工具或检索结果。
  • trace id。
  • 评测结论。
  • 演示讲解要点。