配置分析域
功能概述
分析域是 Analytics Agent 中用于组织数据分析能力的工作空间。你可以在一个分析域内配置数据表、指标、复杂指标、知识库、文件和成员权限,然后通过自然语言发起数据分析、生成图表、查看 SQL 语句或进行文档问答。
一个分析域通常对应一个业务主题,例如销售分析、招聘分析、会员运营、财务经营或行业样例数据。配置完成后,你无需直接编写 SQL,可以在”开始分析”入口中用自然语言提问。
分析域配置的目标,不是把数据资源简单加入系统,而是把业务用户不需要理解的内容提前维护好:哪些表属于这个业务主题、字段在业务上叫什么、指标按什么口径计算、哪些知识解释业务术语、哪些用户能看哪些数据,以及配置后是否能通过真实问题验证。管理维护侧做得越充分,业务用户提问时需要补充的技术细节就越少,答案也越容易稳定。
换句话说,分析域配置是在把通用大模型变成当前业务场景下可用、可控、可验证的 Analytics Agent。没有分析域、字段语义、指标、知识、权限和验证,大模型只能根据表名和字段名猜测用户意图;配置完成后,模型才能在明确的业务上下文、口径和权限范围内回答问题。
核心概念
| 概念 | 说明 |
|---|---|
| 分析域 | 数据、指标、知识、文件和权限的集合,是你发起分析的业务上下文。 |
| 数据表 | 分析域内可被问答和查询的数据对象,可来自 Lakehouse 导入表、CSV/Excel 上传文件或已有表。 |
| 指标 | 基于表字段定义的聚合指标,例如账户总数、总销售额、平均客单价。 |
| 复杂指标 | 需要更复杂 SQL、明细口径或业务规则表达的指标。 |
| 知识 | 帮助系统理解专有词、业务口径、同义词和解释文本的集合。 |
| 文件 | 支持文档问答的上传文件。 |
| 权限 | 控制哪些用户可以查看、分析或管理该分析域。 |
管理配置如何影响问答效果
业务用户看到的是一个自然语言输入框,但输入框背后的效果取决于管理侧是否完成了足够的承接工作。
| 如果用户希望 | 管理侧需要提前做好 |
|---|---|
| 不说表名也能问对数据 | 分析域边界清晰,只加入当前业务主题需要的表和文件。 |
| 不说字段名也能被理解 | 字段别名、描述、类型、用途和隐藏配置清楚。 |
| 不重复解释指标口径 | 指标、复杂指标、知识或答案构建器已经固化口径。 |
| 不担心看到越权数据 | 分析域权限、角色授权、行级权限和列隐藏配置正确。 |
| 第一次进入就知道能问什么 | 推荐问题覆盖核心业务场景,并已通过问答验证。 |
| 答错后能持续变好 | 反馈有人查看、分派、修复,并结合审计日志追踪变更。 |
因此,分析域上线不应只检查“有没有表”,还要检查“业务用户能否用真实说法问出正确答案”。这也是管理配置的核心价值。
进入分析域管理
- 在左侧导航点击“分析”。
- 页面展示所有分析域卡片,支持“全部 / 我的 / 样例”筛选。
- 可以通过“搜索分析域”按名称查找目标域。
- 点击分析域名称进入详情页。
- 点击卡片上的“开始分析”可直接进入该域的问答页面。
分析域列表中,“新建分析域”卡片用于创建新域;已有域卡片提供开始分析、配置和更多操作入口。
新建分析域
- 在分析域列表点击“新建分析域”。
- 填写分析域名称。
- 选择数据源。当前支持 Lakehouse 数据源。
- 填写备注,建议说明业务范围、数据来源和适用人群。
- 如需调整生成回答的行为或切换 LLM 模型,可展开”高级设置”。默认小数点位数和提示词配置可在此设置;模型选择与团队模型池管理见模型选择与配置。
- 保存后进入分析域管理页,继续配置数据和权限。
创建域时需要注意:分析域内的表,以及指标、答案构建器的底表,只能来自同一个数据源。数据源选定后,后续添加表会围绕该数据源展开。
创建成功后,系统会弹出配置引导。建议点击“添加数据”继续完成表、指标等配置;如果点击“暂不”,后续也可以从分析域卡片的配置入口进入域管理。
建议命名规则:
- 使用清晰的业务主题,例如“销售经营分析”“招聘漏斗分析”。
- 测试域建议加入日期或用途标识,例如
。test_sales_domain_20260608 - 避免只使用
、demo
等无法区分业务内容的名称。test
分析域详情页
分析域详情页顶部展示面包屑、开始分析、编辑和更多操作入口。页面主体包含三个页签:
| 页签 | 用途 |
|---|---|
| 基础信息 | 查看域名称、数据源、创建人、创建时间、备注、推荐问题和健康检查信息。 |
| 数据 | 配置表、指标、复杂指标、知识和文件。 |
| 权限 | 配置可访问或可管理该域的用户。 |
基础信息
基础信息页用于查看分析域元数据和推荐问题。
如果新建域还没有添加任何数据,基础信息页会在“数据健康度”区域显示“您还没有任何数据,请添加数据”,并提供“点击前往”按钮。点击后会切换到”数据”页的”表”模块,引导你添加表。
新建域从“新建成功”弹窗点击“添加数据”进入后,基础信息页底部还会显示“分析域可以添加哪些数据”引导区:
| 类型 | 页面说明 |
|---|---|
| 表 | 基于 CSV/Excel 文件或导入的表做数据问答。 |
| 指标 | 定义聚合类型的指标。 |
| 答案构建器 | 定义复杂的指标或者明细指标。 |
| 文件 | 可以针对上传的文件做文档问答。 |
点击“开始添加”可继续进入数据配置流程。
推荐问题可以帮助终端用户快速理解该域能回答什么问题。建议在域发布前至少配置 3 到 5 个高质量推荐问题,例如:
- 账户总数是多少?
- 按国家统计账户数量。
- 不同套餐的账户数量分布如何?
- 最近一个月新增账户趋势如何?
数据页
数据页是分析域配置的核心区域,包含五类配置:
| 配置类型 | 用途 |
|---|---|
| 表 | 基于 CSV/Excel 文件或导入的表做数据问答。 |
| 指标 | 定义聚合类型的指标。 |
| 复杂指标 | 定义复杂指标或明细指标。 |
| 知识 | 帮助系统理解专有词汇、口径解释和同义表达。 |
| 文件 | 对上传文件进行文档问答。 |
添加表
在“数据 > 表”中点击“添加表”,系统提供三种入口:
| 入口 | 适用场景 |
|---|---|
| 导入表 | 从 Lakehouse 工作空间、库、Schema 中选择物理表导入到当前域。 |
| 上传文件 | 上传 CSV/Excel 等文件,并基于文件创建可问答的数据表。 |
| 选择已有表 | 将已经在系统中创建过的数据表加入当前分析域。 |
使用“导入表”
- 点击“添加表”。
- 选择“导入表”。
- 数据源类型会固定为创建分析域时选择的数据源,例如
。LAKEHOUSE - 展开 Workspace,例如
、ns227206
、quick_start
。sys - 选择 Namespace / Schema。
- 在右侧表列表勾选需要加入的表。抽屉底部会显示“已选对象加入域”和当前分析域名称。
- 点击“下一步”。
- 系统会自动生成字段配置,包括字段类型、列类型、用途和索引建议。自动识别结果不一定符合业务语义,后续需要人工复查。
- 确认字段配置后点击“下一步”。
- 系统可能会根据字段自动生成指标,勾选需要采纳的指标。
- 点击“完成并开始分析”。
如果添加表抽屉中没有显示目标 Lakehouse Workspace,页面会提示可能是系统用户
sysservice_decision 未被添加到目标工作空间。需要由具备 workspace_admin 角色的用户执行:
使用“上传文件”
在“添加表”抽屉中选择“上传文件”后,可以单击或拖拽文件到上传区域。实测页面提示支持:
- CSV 文件。
- TXT 文件。
- Excel 文件。
/gzip
压缩格式文件。zip
限制为单个文件小于 50MiB,最多可同时上传 8 个相同格式文件。上传后系统会基于文件生成可问答的数据表,后续仍需要检查字段名、字段类型、字段描述和用途。
使用“选择已有表”
“选择已有表”用于把系统中已经创建好的
v_gpt_* 表资产加入当前分析域。列表会显示:
| 列 | 说明 |
|---|---|
| 表名 | 系统生成或维护的可问答表名,例如 。 |
| 展示名 | 面向用户展示的数据对象名称,例如 。 |
| 描述 | 已有表的业务描述。 |
| 创建人 | 该表资产的创建人。 |
该入口支持搜索、分页和多选。选中表后点击“确认”,表会出现在当前分析域的“表”列表中。
表项灰色不可选时怎么办
如果表列表中的某张表已经是灰色、不可勾选,表示该表已经被导入过或已经存在于系统中。此时不要继续从“导入表”入口添加。
正确做法:
- 回到“添加表”弹窗顶部。
- 切换到“选择已有表”。
- 搜索目标表名。
- 勾选已有表。
- 加入当前分析域。
这样可以避免重复导入同一张物理表,通常也能复用已有表和字段配置。指标是否可用仍需在当前分析域中确认是否已加入、启用并符合业务口径。
已加入域的表列表
表成功加入分析域后,“数据 > 表”列表会显示:
| 列 | 说明 |
|---|---|
| 表展示名 | 面向业务用户看到的表名。该名称可点击进入表详情页。 |
| 表名 | 实际用于问答的 视图或表。 |
| 数据源 | 例如 。 |
| 表关联 | 当前表与其他表的关联状态。无关联时显示“暂无”。 |
| 创建人 | 表资产创建人。 |
| 更新时间 | 表资产最近更新时间。 |
| 备注 | 表备注。 |
| 操作 | 可将表从当前分析域移除。 |
注意:“移除”只是把表从当前分析域解除关联,不等同于删除 Lakehouse 物理表。
配置表详情
已加入域的表仍有大量可配置项。不要只停留在分析域的表列表页,应点击“表展示名”进入表详情页继续配置。
表详情页包含:
| 区域 | 用途 |
|---|---|
| 顶部信息 | 显示表展示名、视图名、描述。 |
| 编辑 | 修改表展示名和表描述。 |
| 上传 | 重新上传或刷新相关数据。 |
| 表结构 | 配置字段、虚拟列、索引、隐藏、列类型、用途、表关联。 |
| 数据预览 | 查看前 10 条预览数据。 |
| 统计分析 | 查看字段统计信息。 |
编辑表信息
在表详情页点击“编辑”,会打开“编辑表”弹窗,可配置:
| 配置项 | 说明 |
|---|---|
| 表展示名 | 用户在分析域中看到的表名,建议使用业务可理解的名称。 |
| 表描述 | 描述表的数据范围、更新频率、业务含义和使用注意事项。 |
表结构字段配置
表结构页会展示字段列表。实测字段列包括:
| 配置项 | 检查建议 |
|---|---|
| 名称 | 确认字段名与物理表一致。 |
| 别名 | 对用户更友好的中文或业务名称,例如 可配置为“账户 ID”。 |
| 类型 | 确认数值、字符串、时间等类型识别正确。 |
| 描述 | 尽量补充业务解释,减少问答歧义。 |
| 列类型 | 区分连续值、类别值、时间值等。 |
| 用途 | 区分维度、筛选条件、度量字段。 |
| 表关联 | 多表分析时确认 Join 关系是否合理。 |
| 索引管理 | 控制字段是否参与索引,影响检索和问答召回。 |
| 隐藏 | 控制字段是否参与 Analytics Agent 问答理解和结果展示;不替代底层数据权限。 |
| 刷新时间 | 显示字段配置或识别结果的最近刷新时间。 |
字段描述质量会直接影响自然语言问答效果。关键字段建议补充清晰描述。
常见列类型和用途示例:
| 类型或用途 | 含义 |
|---|---|
| 类别字段,例如 、。 |
| 连续数值字段,例如 。 |
| 日期或时间字段,例如创建时间、订单时间。 |
| 分区字段,用于表示数据分区或分区范围。 |
| 其他类型,虚拟列可能默认识别为该类型。 |
| 可作为分析维度。 |
| 可作为筛选条件。 |
| 可作为度量字段参与聚合。 |
实测列类型下拉的可选值包括:
CATEGORICALCONTINUOUSDATE_AND_TIMEPARTITIONOTHER
实测字段用途包括:
DIMFILTERMEASURE
同一个字段可以有多个用途。例如
id 可显示为 DIM 和 FILTER,seats 可显示为 FILTER 和 MEASURE。
表自动关联
“自动关联”用于让系统根据域内多张表的字段信息自动识别可能的表关联关系。
实测行为:
- 当前域只有 1 张表时,“自动关联”按钮置灰,不可点击。
- 当前域有 2 张及以上表时,“自动关联”按钮变为可点击。
- 点击后会先显示“正在关联”,系统完成识别后打开“确认关联”弹窗。
- 弹窗表格列包括“源表”“源表列”“目标表”“列”“源表列:目标表列”。
- 如果系统未识别出关联关系,弹窗显示“暂无表关联”。
本次使用
ns227206.public.v_gpt_accounts 和 quick_start.cat_litter.v_gpt_category_mapping 两张表测试,自动关联弹窗显示“暂无表关联”,说明自动关联不会强行生成 Join;只有当字段名、字段语义或数据关系满足系统识别条件时,才会给出候选关联。
在
gaming_profiles_playstation 域中,域内已有多张游戏、玩家、成就和价格相关表。点击“自动关联”后,系统识别出候选关系:
| 源表 | 源表列 | 目标表 | 目标列 | 关系 |
|---|---|---|---|---|
| | | | |
这说明自动关联可以发现候选主外键关系,但不会直接替你完成业务确认。管理员需要判断该关系是否符合真实数据模型,再决定是否保存。
建议:
- 自动关联结果必须人工确认后再保存。
- 如果弹窗显示“暂无表关联”,需要手动检查两张表是否真的有可 Join 字段。
- 不要为了让多表问答可用而随意配置 Join,错误 Join 会导致数据膨胀或指标口径错误。
- 配置后应通过典型问题和 SQL 校验结果是否符合业务预期。
表关联配置完成后,可以在分析域表列表的“表关联”列看到当前表关联了哪些表,也可以进入表详情页,在字段级别查看某个字段关联到哪张表的哪个字段。例如
purchased_games 表中的 playerid 关联到玩家表,library 关联到游戏表。字段级关系能帮助系统在多表问答时选择正确 JOIN 路径。
新建虚拟列
虚拟列用于基于已有字段计算出一个新的分析字段,适合处理拼接、转换、分类、派生标签等场景。
操作步骤:
- 进入表详情页。
- 打开“表结构”页签。
- 点击“新建虚拟列”。
- 填写字段名。
- 在 SQL 编辑区填写表达式。
- 点击
校验。Run - 如果显示“运行成功”并返回样例数据,再点击“确认”保存。
实测示例:基于
first_name 和 last_name 生成姓名字段。
点击
Run 后,页面返回“运行成功”,并展示样例数据,例如:
确认保存后,字段数从 16 变为 17。本次测试中新字段在表结构列表中显示为“虚拟列”,类型识别为
string,列类型为 OTHER,用途为 FILTER。保存后应回到字段列表检查字段名、别名、描述、列类型和用途是否符合预期;如果自动识别结果不合适,需要继续编辑字段配置。
虚拟列 SQL 建议:
- 只引用当前表中已经存在的字段。
- 先写简单表达式并用
校验。Run - 对字符串拼接、日期转换、数值分桶等场景优先使用 Lakehouse 支持的 SQL 函数。
- 保存后补充字段别名和描述,让用户知道该虚拟列代表什么。
数据预览
“数据预览”页签用于快速查看表数据。页面提示“预览仅显示前10条数据”。如果预览区显示“暂无数据”,需要结合表数据刷新、权限、视图 SQL 和数据源状态排查。
统计分析
“统计分析”页签按字段展示统计结果。实测列包括:
| 统计项 | 说明 |
|---|---|
| 字段计数。 |
| 空值数量。 |
| 去重值数量。 |
| 最小值。 |
| 最大值。 |
| 平均值。 |
| 求和。 |
| 分区范围 | 分区字段或分区范围信息。 |
例如
id 字段统计显示 COUNT 为 2,495、NULL VALUE 为 0、DISTINCT 为 2,493、MIN 为 1、MAX 为 2,495。上线前建议查看统计分析,确认关键字段是否存在大量空值、异常最大最小值或明显不合理的去重数量。
配置指标
指标用于稳定回答“总数、平均值、最大值、最小值、占比、金额汇总”等问题。
系统在导入表后可能自动生成指标,例如:
- 账户总数:
COUNT(id) - 总座位数:
SUM(seats) - 平均座位数:
AVG(seats) - 最晚创建时间:
MAX(created_at) - 最早试用结束时间:
MIN(trial_ends_at)
建议采纳明显合理的自动指标,并对名称和口径进行人工检查。对于业务口径复杂的指标,应使用”复杂指标”或”答案构建器”配置,详见指标与答案构建器。
配置知识
知识用于补充系统无法仅靠表字段理解的业务语义,例如:
- 专有名词解释。
- 指标口径说明。
- 字段同义词。
- 业务缩写。
- 组织内部约定。
示例:
| 术语 | 解释 |
|---|---|
| 活跃账户 | 当前 为 true 的账户。 |
| 试用转化 | 为 true 表示试用账户已转为付费账户。 |
| 套餐 | 字段表示账户订阅的产品套餐。 |
配置文件
文件用于文档问答场景。你可以上传产品手册、合同、政策说明、业务说明文档等,然后在分析域中围绕文件内容提问。
在“数据 > 文件”点击“添加文件”后,系统提供两个入口:
| 入口 | 说明 |
|---|---|
| 上传文件 | 上传新的文档问答文件。 |
| 选择已有文件 | 从系统已有文件中选择并关联到当前分析域。 |
上传文件时,实测页面提示支持 Excel 文件
.xlsx、文本文件 .txt、PDF 文件 .pdf,最大 10MiB。Excel 上传区提供“下载模版”入口。选择已有文件时,列表会展示文件名、创建人、更新时间,并支持搜索和分页。
建议:
- 上传前确认文件内容与该分析域主题相关。
- 文件命名应清晰。
- 避免上传重复、过期或无关文档。
- 涉及敏感信息的文件应先确认权限范围。
权限管理
在“权限”页签中,可以配置哪些用户可以访问或管理该分析域。
权限配置建议:
- 域负责人保留写权限。
- 只需要问答的用户授予访问或使用权限。
- 涉及敏感数据的域,应限制到最小必要人员。
- 删除用户权限前确认该用户是否仍负责维护指标、字段或推荐问题。
开始分析
配置完成后,可以通过以下入口开始分析:
- 分析域列表中的“开始分析”按钮。
- 分析域详情页右上角“开始分析”按钮。
- 完成添加表流程后的“完成并开始分析”按钮。
进入分析页后,你可以在输入框中直接提问,例如:
- 账户总数是多少?
- 按国家统计账户数量。
- 各套餐的账户数量分布如何?
- 平均座位数是多少?
系统会返回分析结果,可能包括数字卡片、图表、文字解释和 SQL 语句入口。
查看 SQL 和分析记录
回答生成后,结果区域通常会提供:
| 操作 | 说明 |
|---|---|
| SQL 语句 | 查看系统生成并执行的 SQL,便于校验口径。 |
| 记录 | 查看分析过程或执行记录。 |
| 重试 | 重新生成回答。 |
| 反馈 | 对回答质量进行反馈。 |
建议在上线前用典型问题检查 SQL 是否符合业务预期。
编辑、复制和删除分析域
分析域详情页右上角提供常见管理操作:
| 操作 | 说明 |
|---|---|
| 编辑 | 修改名称、备注等基础信息。 |
| 复制 | 基于当前域复制一个新的分析域,适合复用配置。 |
| 删除 | 删除当前分析域。 |
删除前请确认:
- 该域不再被用户使用。
- 推荐问题、权限、指标和知识配置不需要保留。
- 相关分析历史是否仍需要保留或导出。
- 删除操作通常不可逆,应谨慎执行。
相关文档
- 分析域配置原则与常见问题 — 9 条配置原则、6 个 FAQ、健康检查与推荐流程
- 指标与答案构建器 — 复杂指标的精确配置与 SQL 模板
- 问答准确率提升 — 通过语义层配置让回答更准确
- 模型选择与配置 — 切换或配置问答使用的 LLM 模型
- 数据源管理 — 添加 MySQL、StarRocks、Databricks 等外部数据源
- 快速入门 — 5 分钟跑通第一次数据问答
示例:账户分析域最小配置
假设需要创建一个账户分析域,可按以下方式配置:
| 配置项 | 示例 |
|---|---|
| 分析域名称 | 账户运营分析 |
| 数据表 | |
| 核心指标 | 账户总数、总座位数、平均座位数 |
| 核心字段 | 、、、、 |
| 推荐问题 | 账户总数是多少?按国家统计账户数量。不同套餐账户分布如何? |
| 知识 | 活跃账户、试用转化、套餐等术语解释 |
验证问题示例:
如果配置正确,系统应返回账户总数,并给出对应表或 SQL 依据。
