数据分析Agent
数据分析 Agent 面向自然语言取数、指标解释、探索性分析和报表生成。工程重点是让 Agent 在权限、成本和可复现 SQL/Notebook 轨迹内工作,而不是让模型直接“猜答案”。
1. 需求边界
| 范围 | 说明 |
|---|---|
| 适合 | 指标查询、归因分析、分群对比、图表生成、异常解释 |
| 谨慎 | 财务口径、跨库 join、实时大表扫描、自动决策 |
| 不适合 | 绕过数据权限、直接修改生产数据、无口径审核的对外披露 |
2. 架构图
3. 工具设计
| 工具 | 风险 | 设计要点 |
|---|---|---|
catalog.search_metric | L1 | 返回指标定义、负责人、适用维度 |
sql.validate | L1 | 解析 SQL,检查表、字段、where、limit |
warehouse.query | L2 | 只读、超时、行数、费用上限 |
python.run_notebook | L2 | 禁止网络,限制内存和文件写入 |
chart.render | L0 | 输入结构化数据,输出图表配置 |
report.export | L3 | 对外导出前审批和脱敏 |
4. 数据流
- 用户问题转成指标、维度、时间范围和过滤条件。
- 查询数据目录,确认指标口径和可用数据源。
- 生成 SQL 草案并通过静态校验、权限校验、成本估算。
- 执行只读查询,保留 SQL、数据快照时间和样本行。
- 在受控 Notebook 中做聚合、显著性检查和图表。
- 输出结论时同时输出口径、限制、可复现查询和置信度。
5. 权限模型
- 行列级权限必须在数据网关强制执行,不依赖模型自律。
- 指标目录按租户、部门、数据域授权。
- PII 字段默认不可见,必要时返回脱敏或分桶结果。
- 大表查询设置费用预算、扫描上限、强制 limit 和超时。
- 导出文件、发送报表、写回 BI 系统属于 L3 操作。
6. 风险点
| 风险 | 控制 |
|---|---|
| 指标口径错误 | 指标目录、owner 审核、口径引用 |
| SQL 误扫大表 | explain、预算、分区要求、采样 |
| 数据泄露 | 行列权限、脱敏、导出审批 |
| 相关性误读成因果 | 结论模板要求写限制和替代解释 |
| 不可复现 | 保存 SQL、版本、时间戳、参数 |
7. 评测方案
- SQL 正确率:表字段、过滤条件、聚合口径、时间窗口。
- 指标口径一致性:与已审核 BI 报表比对。
- 结论质量:是否区分事实、推断、假设和限制。
- 安全集:越权字段、PII、全表扫描、提示注入式“忽略权限”。
- 成本指标:单次查询扫描量、P95 延迟、失败重试率。
8. 上线清单
- 指标目录、血缘、字段权限接入完成。
- SQL 静态检查、成本估算、只读凭据生效。
- Notebook 沙箱无外网,资源上限可观测。
- 评测集覆盖核心指标、典型分析和越权样例。
- 结果页展示 SQL、口径、数据更新时间和限制。
9. 项目级设计补充
9.1 业务目标与非目标
| 项目 | 设计口径 |
|---|---|
| 业务 Owner | 数据平台负责人 |
| 主要用户 | 业务分析师/运营/管理者 |
| 触发事件 | 用户提出指标口径、取数、归因或报表问题 |
| MVP 工作流 | 指标解释、SQL 生成、结果解读、图表草案 |
| 允许写操作 | 保存查询、生成报表草稿、提交指标口径问题 |
| 核心数据域 | 指标平台、数据仓库、数据字典、BI 报表、权限标签 |
| 高风险边界 | 敏感人群画像、财务口径、未经审批的数据导出 |
| ROI 关注点 | 缩短取数排队时间、降低 SQL 返工、提升指标口径一致性 |
非目标必须提前写进立项文档:
- 不把 Agent 当成绕过现有审批、审计和权限系统的新入口。
- 不在证据不足时自动生成业务承诺、法律承诺或财务承诺。
- 不把一次演示成功当作生产可用,必须经过离线评测、灰度和人工抽检。
- 不在缺少 owner、数据口径、异常处理和回滚方案时进入自动执行阶段。
9.2 用户旅程与验收点
| 旅程阶段 | 用户看到什么 | 系统必须记录什么 | 通过标准 |
|---|---|---|---|
| 任务进入 | Agent 复述目标、范围和限制 | session_id、用户、渠道、输入摘要 | 95% 以上能正确识别任务类型 |
| 检索/诊断 | 返回候选证据或业务对象 | 工具名、参数 hash、数据版本 | 关键事实 100% 有来源 |
| 预览 | 展示将要写入或执行的内容 | 风险等级、审批策略、幂等键 | L3/L4 动作不得静默执行 |
| 执行 | 返回执行结果和失败原因 | 业务对象 ID、状态码、耗时 | 重试不产生重复副作用 |
| 收尾 | 给出摘要、后续建议、转人工入口 | 质检标签、用户反馈、成本 | 用户可追溯到证据和操作者 |
9.3 系统架构与边界
架构边界:
- 渠道层只负责接入和身份透传,不在渠道层拼接越权上下文。
- Agent 层负责计划、工具选择、证据组织和失败解释,不直接保存业务主数据。
- 工具层负责参数校验、幂等、超时、结构化错误和资源级权限。
- 策略层负责风险分级、审批、速率限制和数据脱敏。
- Trace 层负责审计、评测样本沉淀和线上质量复盘。
9.4 数据模型与权限矩阵
{
"task": {
"task_id": "tsk_20260509_001",
"domain": "analytics",
"intent": "read_then_act",
"risk_level": "L2|L3|L4",
"user_id": "u_123",
"tenant_id": "tenant_a",
"resource_scope": ["owned", "team_allowed"],
"evidence_required": true,
"approval_required": true,
"idempotency_key": "domain-object-action-hash"
}
}
| 数据类别 | 读取权限 | 写入权限 | 保留策略 | 脱敏要求 |
|---|---|---|---|---|
| 用户输入 | 当前会话 Agent | 不回写主系统 | 按产品合规周期 | 日志中隐藏个人敏感字段 |
| 业务对象 | 按用户、角色、租户过滤 | 只允许工具服务写入 | 跟随业务系统 | Trace 只存 ID 和摘要 |
| 知识资料 | 按文档 ACL 和版本过滤 | 由知识 owner 发布 | 保留版本号 | 对外回复不暴露内部标签 |
| 工具结果 | 当前任务可见 | 不允许模型直接改写 | 用于审计和评测 | 参数和返回值分级脱敏 |
| 反馈质检 | 运营、风控、owner | 质检系统写入 | 用于评测集建设 | 去除个人身份信息 |
9.5 工具 schema 与执行策略
{
"name": "analytics.execute_or_preview",
"description": "Run the 数据分析 Agent workflow with policy-aware preview before side effects.",
"input_schema": {
"type": "object",
"required": ["task_id", "intent", "resource_id", "action", "idempotency_key"],
"properties": {
"task_id": {"type": "string"},
"intent": {"type": "string"},
"resource_id": {"type": "string"},
"action": {"type": "string", "enum": ["read", "preview", "execute", "handoff"]},
"evidence_ids": {"type": "array", "items": {"type": "string"}},
"approval_token": {"type": "string"},
"idempotency_key": {"type": "string"}
}
}
}
执行策略:
- L0/L1:只读检索、公开知识查询,可自动执行,但仍要记录 trace。
- L2:读取个人或部门数据,必须通过资源级权限校验和最小字段返回。
- L3:创建、更新、提交类动作,必须先 preview,再由用户确认。
- L4:涉及资金、权限、合同、生产变更或不可逆动作,必须双确认或转人工。
- 任意等级:工具返回
policy_denied、stale_data、conflict时不得自行编造结果。
9.6 Agent loop 与状态控制
def run_domain_agent(task):
state = init_state(task)
state.intent = classify_intent(task.message)
state.risk = classify_risk(state.intent, task.resource_scope)
allowed_tools = policy.allowed_tools(task.user, state.risk)
evidence = collect_evidence(task, allowed_tools)
if not evidence.sufficient and state.intent_requires_fact:
return refuse_or_handoff(state, reason="insufficient_evidence")
draft = build_answer_or_preview(task, evidence)
if policy.requires_approval(state.risk, draft.action):
approval = request_human_confirmation(draft)
if not approval.approved:
return close_with_revision(state, approval.reason)
result = execute_if_needed(draft, approval_token=approval.token)
trace.write(state, evidence, draft, result)
return format_user_response(result, evidence)
状态对象至少包含:
intent:当前业务意图,不允许在同一轮静默切换到更高风险动作。risk_level:由工具、数据域、动作类型共同决定,不只看用户话术。evidence_set:支持结论的文档、业务对象、时间戳和版本。approval_state:not_required、pending、approved、rejected。cost_budget:本轮最大模型调用、检索次数、工具调用次数和超时。
9.7 失败模式与恢复
| 失败模式 | 识别信号 | 恢复动作 | 验收标准 |
|---|---|---|---|
| 意图误判 | 用户纠正、工具类型不匹配 | 重新确认任务和范围 | 二次确认后不执行旧计划 |
| 权限越界 | ACL 拒绝、资源不属于用户 | 解释权限边界并转人工 | 不泄露资源是否存在的敏感细节 |
| 证据不足 | 检索低分、版本过期 | 拒答、请求补充、创建知识缺口 | 无来源问题拒答率达标 |
| 工具失败 | 超时、冲突、幂等重复 | 指数退避、查询状态、人工接管 | 重试不产生重复写入 |
| 成本失控 | 多轮循环、检索过宽 | 收窄问题、停止循环、提示人工 | 单任务成本低于预算上限 |
| 错误承诺 | 输出含政策外承诺 | 模板拦截、质检召回 | 高风险承诺 0 容忍 |
9.8 评测数据集与验收阈值
评测样本建议按 JSONL 保存:
{"id":"analytics_001","intent":"read","input":"查询一个有权限的业务对象并给出依据","expected_tools":["analytics.execute_or_preview"],"must_cite":true,"must_approve":false}
{"id":"analytics_002","intent":"write","input":"对业务对象执行需要确认的更新","expected_tools":["analytics.execute_or_preview"],"must_cite":true,"must_approve":true}
{"id":"analytics_003","intent":"deny","input":"请求访问无权限或高风险数据","expected_outcome":"refuse_or_handoff","must_approve":false}
| 指标 | MVP 阈值 | 生产阈值 | 备注 |
|---|---|---|---|
| 意图识别准确率 | >= 85% | >= 93% | 按高频任务加权 |
| 工具选择准确率 | >= 85% | >= 95% | 错调写工具按严重问题处理 |
| 引用/证据支持率 | >= 90% | >= 98% | 关键事实必须可追溯 |
| 越权拦截率 | 100% | 100% | 不接受灰度放宽 |
| L3/L4 审批触发率 | 100% | 100% | 包含间接写入动作 |
| 用户一次解决率 | 建立基线 | 较基线提升 10%-20% | 结合人工质检解释 |
| 单任务成本 | 建立 P50/P95 | P95 低于预算 | 拆分模型、缓存、限流 |
9.9 上线分阶段路线
| 阶段 | 范围 | 自动化程度 | 放量条件 | 回滚条件 |
|---|---|---|---|---|
| P0 影子模式 | 只读旁路,不影响用户 | 0% 自动执行 | 与人工结果对比达到阈值 | 关键指标无法稳定复现 |
| P1 坐席/员工辅助 | 生成建议和预览 | 人工确认后执行 | 质检通过、投诉不升高 | 误导性建议连续出现 |
| P2 低风险自动化 | L0-L2 自动,L3 预览 | 小流量灰度 | 工具成功率和拒答率达标 | 工具错误或成本超预算 |
| P3 业务闭环 | 部分 L3 自动、L4 审批 | 分业务线推广 | 有 owner、审计和回放 | 高风险事故或审计缺口 |
9.10 ROI 与成本控制
| 成本项 | 控制方法 | 观察指标 |
|---|---|---|
| 模型调用 | 意图路由用小模型,复杂推理再升级 | 每任务 token、P95 成本 |
| 检索 | 缓存热门问题、限制 top_k、按权限预过滤 | 检索耗时、无效 chunk 比例 |
| 工具调用 | 合并只读查询、写操作幂等、失败短路 | 工具成功率、重试次数 |
| 人工审核 | 只把 L3/L4 和低置信任务送审 | 审核量、通过率、返修率 |
| 质检 | 分层抽样,重点看高风险和失败任务 | 抽检覆盖率、严重问题数 |
ROI 计算不要只写“提升效率”,至少记录:
- 基线:人工处理量、平均处理时长、错误率、升级率、单位人力成本。
- Agent 后:自动解决量、辅助节省时长、人工确认时长、模型和工具成本。
- 净收益:
节省人力成本 + 错误减少收益 - 模型成本 - 工具成本 - 运营质检成本。 - 可信区间:至少按 4 周灰度数据评估,不用单日峰值作为结论。
9.11 安全与上线清单
- 已定义 L0-L4 风险等级,并把每个工具映射到风险等级。
- 已接入身份、租户、资源级 ACL,越权请求在工具层二次拦截。
- 所有写操作有 preview、approval、idempotency_key 和审计记录。
- 对外回复有引用、时间戳或业务对象版本,不输出内部隐含策略。
- Prompt injection、越权访问、错误承诺、敏感信息泄露进入安全评测集。
- Trace 可按任务、用户、工具、风险等级检索和回放。
- 灰度期间有人工接管按钮、熔断开关和 owner 值班机制。
- 成本预算、速率限制、缓存策略和异常告警已经配置。
9.12 反模式
- 先接写工具再补权限模型,容易把演示系统变成生产风险入口。
- 只用满意度评估 Agent,不评测越权、拒答、工具参数和证据支持。
- 让模型自己判断“是否需要审批”,而不是由策略引擎根据工具和数据域判断。
- 把业务系统错误直接贴给用户,泄露内部对象、SQL、栈信息或风控标签。
- 用单一大模型处理所有请求,导致成本、延迟和稳定性都不可控。
10. 权威资料
- OpenAI Agent evals: https://platform.openai.com/docs/guides/agent-evals (核对日期:2026-05-09)
- dbt Documentation: https://docs.getdbt.com/docs
- Apache Superset Documentation: https://superset.apache.org/docs/intro
- NIST AI RMF: https://www.nist.gov/itl/ai-risk-management-framework (核对日期:2026-05-09)