Analytics Agent 问答准确率提升最佳实践

回应大家最关心的问题:有哪些提升问答准确率的手段?什么场景适合什么方式?如何管理?

一、有哪些能力提升准确率?

Data Analytics Agent (DataGPT)提供 4 种核心能力来给模型更多业务信息输入,提高回答准确率:

1. 表列 Schema 说明

配置项作用示例
表描述告诉模型这张表是什么"香港地区所有门店的每日经营流水数据"
列别名(Alias)让模型理解同一字段的不同叫法列名 rev_amt → 别名"营业额"、"收入"
列描述(Description)解释列的业务含义和取值规则"payment_type: 支付方式,取值包括 cash/card/octopus"
隐藏列当数据表字段较多时,部分列对业务分析无意义(如系统主键、ETL 时间戳、内部编码等),开启隐藏后该列不会参与 AI 问答与分析,减少模型选错列的概率适用场景: 表中有大量技术字段,干扰模型选列判断;或某些敏感字段不希望被AI引用
虚拟列当变更schema需要AI适配理解时,不改动底层数据表,通过SQL表达式创建虚拟列即可使用场景:原始字段需加工后方便AI理解业务含义

2. 知识(Knowledge Base / 分析文档)

以文件形式提供的业务背景知识,通过 RAG 检索注入对话上下文。

适合放入知识库的内容:

  • 业务规则说明
  • 数据字典 / 编码对照表
  • 行业术语解释
  • 分析方法论 / 计算口径说明
  • FAQ 常见问答
  • 仅在特定场景召回

核心价值:让模型理解"数据背后的业务逻辑",而不仅仅是数据结构。

3. 指标(Metrics)/ 答案构建器

预定义的计算公式,支持别名匹配,确保指标口径统一。其中:

  • 指标:用于定义聚合类计算(如 SUM、AVG)
  • 答案构建器:用于定义涉及多表 JOIN、复杂过滤条件
要素说明截图demo
指标名称如"客单价"
计算逻辑SUM(revenue) / COUNT(DISTINCT order_id)
别名让模型理解同一名词的不同叫法
指标自动生成已支持针对选定数据表自动生成基础聚合指标(如 SUM、COUNT 等),后续将上线上下文感知的指标洞察与自动生成能力,实现更智能的指标推荐

核心价值:确保关键业务指标的计算口径统一、准确,不会每次问都生成不同的 SQL

4. 域提示词(Domain Prompt)

分析域级别的系统提示词,相当于给模型一个"角色设定"和"行为规范"。

  • 角色设定:"你是一个香港餐饮行业的数据分析师"
  • 回答规范:"金额单位默认为港币,日期格式用 YYYY-MM-DD"
  • 业务约束:"计算同店增长时,只包含开业满12个月的门店"
  • 输出偏好:"趋势类问题优先用折线图展示"

核心价值:设定全局规则,避免每次对话都要重复说明前提条件


二、什么场景用什么能力?(场景 → 能力映射)

场景/问题类型推荐能力为什么
模型选错了表或列表列 Schema 说明描述不清导致匹配错误
过滤条件的值写错(如用全称但数据存缩写)列值索引建立模糊匹配
计算口径不对(如"毛利"算法错误)指标预定义精确公式
复杂计算逻辑(多表 JOIN + 条件过滤)答案构建器(Answer Builder)提供 SQL 模板
模型不理解业务术语(如"翻台率")知识库提供术语解释文档
需要背景知识才能回答(如"为什么3月业绩下降")知识库提供业务背景文档
每次都要重复说明前提条件域提示词一次设定,全局生效
同一个指标有多种叫法指标别名 / 列别名支持多种表达匹配

决策流程图

用户问题回答不准确 ↓ 是"选错表/列"吗? → 是 → 完善 Schema 说明 + 列值索引 ↓ 否 是"计算逻辑错"吗? → 是 → 创建指标 或 答案构建器 ↓ 否 是"不理解业务概念"吗? → 是 → 添加知识库文档 ↓ 否 是"每次都要重复说前提"吗? → 是 → 配置域提示词 ↓ 否 综合以上手段排查


三、怎么用?(知识库的管理方式)

3.1 知识库的组织结构

新版知识库采用层级文件夹结构(类似飞书知识库):

3.2 内容创建方式

方式适用场景
直接新建手动编写业务规则、术语解释等
本地上传已有 PDF/Word/Excel/Markdown 文档
云存储导入从 OSS/S3 批量导入已有文档

3.3 关联分析域(关键!)

知识库内容必须关联到分析域后,该域下的对话才能检索到:

  • 可以在文件夹级别关联 → 子文件自动继承
  • 支持一个文件关联多个分析域
  • 未关联的文件不会被任何对话检索到

最佳实践

  • 按业务主题建文件夹,文件夹级别关联分析域
  • 通用知识(如公司术语表)关联所有分析域
  • 特定业务知识只关联对应域

3.4 什么内容适合放知识库?

✅ 适合放入知识库的内容:

内容类型举例
业务规则翻台率 = 接待桌数 / 总桌数;客单价 = 营业额 / 来客数
编码对照门店代码 A01 = 铜锣湾店,A02 = 旺角店
行业术语"堂食"、"外卖"、"翻台"、"出餐时间"的定义
数据口径"有效订单"不包含退款订单和测试订单
分析方法同店增长只统计开业满12个月的门店
常见 FAQ"为什么报表数据和财务对不上?" → 因为报表不含税
背景信息2026年Q1公司做了门店调整,3家新开、2家关闭

❌ 不适合放知识库的内容:

内容类型应该用什么
指标的精确计算公式→ 用「指标」功能
复杂 SQL 模板→ 用「回答构建器」
列的别名和描述→ 用「Schema 说明」
全局回答规范→ 用「域提示词」

3.5 管理建议

建议说明
按主题分文件夹便于管理和批量关联分析域
文档保持简洁每个文件聚焦一个主题,避免大而全
定期更新业务规则变化时同步更新知识库
命名规范文件名体现内容,如"翻台率计算规则.md"
先验证再推广添加知识后测试几个问题,确认效果再大范围使用

四、总结:4 种能力的协同关系

一句话总结:

  • Schema 说明让模型"找对数据"
  • 指标让模型"算对数字"
  • 知识库让模型"理解业务"
  • 域提示词让模型"遵守规范"

四者配合使用,准确率最高。

联系我们
预约咨询
微信咨询
电话咨询