配置分析域

功能概述

分析域是 Analytics Agent 中用于组织数据分析能力的工作空间。你可以在一个分析域内配置数据表、指标、复杂指标、知识库、文件和成员权限,然后通过自然语言发起数据分析、生成图表、查看 SQL 语句或进行文档问答。

一个分析域通常对应一个业务主题,例如销售分析、招聘分析、会员运营、财务经营或行业样例数据。配置完成后,你无需直接编写 SQL,可以在”开始分析”入口中用自然语言提问。

分析域配置的目标,不是把数据资源简单加入系统,而是把业务用户不需要理解的内容提前维护好:哪些表属于这个业务主题、字段在业务上叫什么、指标按什么口径计算、哪些知识解释业务术语、哪些用户能看哪些数据,以及配置后是否能通过真实问题验证。管理维护侧做得越充分,业务用户提问时需要补充的技术细节就越少,答案也越容易稳定。

换句话说,分析域配置是在把通用大模型变成当前业务场景下可用、可控、可验证的 Analytics Agent。没有分析域、字段语义、指标、知识、权限和验证,大模型只能根据表名和字段名猜测用户意图;配置完成后,模型才能在明确的业务上下文、口径和权限范围内回答问题。

核心概念

概念说明
分析域数据、指标、知识、文件和权限的集合,是你发起分析的业务上下文。
数据表分析域内可被问答和查询的数据对象,可来自 Lakehouse 导入表、CSV/Excel 上传文件或已有表。
指标基于表字段定义的聚合指标,例如账户总数、总销售额、平均客单价。
复杂指标需要更复杂 SQL、明细口径或业务规则表达的指标。
知识帮助系统理解专有词、业务口径、同义词和解释文本的集合。
文件支持文档问答的上传文件。
权限控制哪些用户可以查看、分析或管理该分析域。

管理配置如何影响问答效果

业务用户看到的是一个自然语言输入框,但输入框背后的效果取决于管理侧是否完成了足够的承接工作。

如果用户希望管理侧需要提前做好
不说表名也能问对数据分析域边界清晰,只加入当前业务主题需要的表和文件。
不说字段名也能被理解字段别名、描述、类型、用途和隐藏配置清楚。
不重复解释指标口径指标、复杂指标、知识或答案构建器已经固化口径。
不担心看到越权数据分析域权限、角色授权、行级权限和列隐藏配置正确。
第一次进入就知道能问什么推荐问题覆盖核心业务场景,并已通过问答验证。
答错后能持续变好反馈有人查看、分派、修复,并结合审计日志追踪变更。

因此,分析域上线不应只检查“有没有表”,还要检查“业务用户能否用真实说法问出正确答案”。这也是管理配置的核心价值。

进入分析域管理

  1. 在左侧导航点击“分析”。
  2. 页面展示所有分析域卡片,支持“全部 / 我的 / 样例”筛选。
  3. 可以通过“搜索分析域”按名称查找目标域。
  4. 点击分析域名称进入详情页。
  5. 点击卡片上的“开始分析”可直接进入该域的问答页面。

分析域列表中,“新建分析域”卡片用于创建新域;已有域卡片提供开始分析、配置和更多操作入口。

新建分析域

  1. 在分析域列表点击“新建分析域”。
  2. 填写分析域名称。
  3. 选择数据源。当前支持 Lakehouse 数据源。
  4. 填写备注,建议说明业务范围、数据来源和适用人群。
  5. 如需调整生成回答的行为或切换 LLM 模型,可展开”高级设置”。默认小数点位数和提示词配置可在此设置;模型选择与团队模型池管理见模型选择与配置
  6. 保存后进入分析域管理页,继续配置数据和权限。

创建域时需要注意:分析域内的表,以及指标、答案构建器的底表,只能来自同一个数据源。数据源选定后,后续添加表会围绕该数据源展开。

创建成功后,系统会弹出配置引导。建议点击“添加数据”继续完成表、指标等配置;如果点击“暂不”,后续也可以从分析域卡片的配置入口进入域管理。

建议命名规则:

  • 使用清晰的业务主题,例如“销售经营分析”“招聘漏斗分析”。
  • 测试域建议加入日期或用途标识,例如
    test_sales_domain_20260608
    test_sales_domain_20260608
  • 避免只使用
    demo
    demo
    test
    test
    等无法区分业务内容的名称。

分析域详情页

分析域详情页顶部展示面包屑、开始分析、编辑和更多操作入口。页面主体包含三个页签:

页签用途
基础信息查看域名称、数据源、创建人、创建时间、备注、推荐问题和健康检查信息。
数据配置表、指标、复杂指标、知识和文件。
权限配置可访问或可管理该域的用户。

基础信息

基础信息页用于查看分析域元数据和推荐问题。

如果新建域还没有添加任何数据,基础信息页会在“数据健康度”区域显示“您还没有任何数据,请添加数据”,并提供“点击前往”按钮。点击后会切换到”数据”页的”表”模块,引导你添加表。

新建域从“新建成功”弹窗点击“添加数据”进入后,基础信息页底部还会显示“分析域可以添加哪些数据”引导区:

类型页面说明
基于 CSV/Excel 文件或导入的表做数据问答。
指标定义聚合类型的指标。
答案构建器定义复杂的指标或者明细指标。
文件可以针对上传的文件做文档问答。

点击“开始添加”可继续进入数据配置流程。

推荐问题可以帮助终端用户快速理解该域能回答什么问题。建议在域发布前至少配置 3 到 5 个高质量推荐问题,例如:

  • 账户总数是多少?
  • 按国家统计账户数量。
  • 不同套餐的账户数量分布如何?
  • 最近一个月新增账户趋势如何?

数据页

数据页是分析域配置的核心区域,包含五类配置:

配置类型用途
基于 CSV/Excel 文件或导入的表做数据问答。
指标定义聚合类型的指标。
复杂指标定义复杂指标或明细指标。
知识帮助系统理解专有词汇、口径解释和同义表达。
文件对上传文件进行文档问答。

添加表

在“数据 > 表”中点击“添加表”,系统提供三种入口:

入口适用场景
导入表从 Lakehouse 工作空间、库、Schema 中选择物理表导入到当前域。
上传文件上传 CSV/Excel 等文件,并基于文件创建可问答的数据表。
选择已有表将已经在系统中创建过的数据表加入当前分析域。

使用“导入表”

  1. 点击“添加表”。
  2. 选择“导入表”。
  3. 数据源类型会固定为创建分析域时选择的数据源,例如
    LAKEHOUSE
    LAKEHOUSE
  4. 展开 Workspace,例如
    ns227206
    ns227206
    quick_start
    quick_start
    sys
    sys
  5. 选择 Namespace / Schema。
  6. 在右侧表列表勾选需要加入的表。抽屉底部会显示“已选对象加入域”和当前分析域名称。
  7. 点击“下一步”。
  8. 系统会自动生成字段配置,包括字段类型、列类型、用途和索引建议。自动识别结果不一定符合业务语义,后续需要人工复查。
  9. 确认字段配置后点击“下一步”。
  10. 系统可能会根据字段自动生成指标,勾选需要采纳的指标。
  11. 点击“完成并开始分析”。

如果添加表抽屉中没有显示目标 Lakehouse Workspace,页面会提示可能是系统用户

sysservice_decision
sysservice_decision
未被添加到目标工作空间。需要由具备
workspace_admin
workspace_admin
角色的用户执行:

create user sysservice_decision; grant role workspace_admin to user sysservice_decision;

使用“上传文件”

在“添加表”抽屉中选择“上传文件”后,可以单击或拖拽文件到上传区域。实测页面提示支持:

  • CSV 文件。
  • TXT 文件。
  • Excel 文件。
  • gzip
    gzip
    /
    zip
    zip
    压缩格式文件。

限制为单个文件小于 50MiB,最多可同时上传 8 个相同格式文件。上传后系统会基于文件生成可问答的数据表,后续仍需要检查字段名、字段类型、字段描述和用途。

使用“选择已有表”

“选择已有表”用于把系统中已经创建好的

v_gpt_*
v_gpt_*
表资产加入当前分析域。列表会显示:

说明
表名系统生成或维护的可问答表名,例如
ns227206.public.v_gpt_accounts
ns227206.public.v_gpt_accounts
展示名面向用户展示的数据对象名称,例如
ns227206.public.accounts
ns227206.public.accounts
描述已有表的业务描述。
创建人该表资产的创建人。

该入口支持搜索、分页和多选。选中表后点击“确认”,表会出现在当前分析域的“表”列表中。

表项灰色不可选时怎么办

如果表列表中的某张表已经是灰色、不可勾选,表示该表已经被导入过或已经存在于系统中。此时不要继续从“导入表”入口添加。

正确做法:

  1. 回到“添加表”弹窗顶部。
  2. 切换到“选择已有表”。
  3. 搜索目标表名。
  4. 勾选已有表。
  5. 加入当前分析域。

这样可以避免重复导入同一张物理表,通常也能复用已有表和字段配置。指标是否可用仍需在当前分析域中确认是否已加入、启用并符合业务口径。

已加入域的表列表

表成功加入分析域后,“数据 > 表”列表会显示:

说明
表展示名面向业务用户看到的表名。该名称可点击进入表详情页。
表名实际用于问答的
v_gpt_*
v_gpt_*
视图或表。
数据源例如
LAKEHOUSE
LAKEHOUSE
表关联当前表与其他表的关联状态。无关联时显示“暂无”。
创建人表资产创建人。
更新时间表资产最近更新时间。
备注表备注。
操作可将表从当前分析域移除。

注意:“移除”只是把表从当前分析域解除关联,不等同于删除 Lakehouse 物理表。

配置表详情

已加入域的表仍有大量可配置项。不要只停留在分析域的表列表页,应点击“表展示名”进入表详情页继续配置。

表详情页包含:

区域用途
顶部信息显示表展示名、视图名、描述。
编辑修改表展示名和表描述。
上传重新上传或刷新相关数据。
表结构配置字段、虚拟列、索引、隐藏、列类型、用途、表关联。
数据预览查看前 10 条预览数据。
统计分析查看字段统计信息。

编辑表信息

在表详情页点击“编辑”,会打开“编辑表”弹窗,可配置:

配置项说明
表展示名用户在分析域中看到的表名,建议使用业务可理解的名称。
表描述描述表的数据范围、更新频率、业务含义和使用注意事项。

表结构字段配置

表结构页会展示字段列表。实测字段列包括:

配置项检查建议
名称确认字段名与物理表一致。
别名对用户更友好的中文或业务名称,例如
account_id
account_id
可配置为“账户 ID”。
类型确认数值、字符串、时间等类型识别正确。
描述尽量补充业务解释,减少问答歧义。
列类型区分连续值、类别值、时间值等。
用途区分维度、筛选条件、度量字段。
表关联多表分析时确认 Join 关系是否合理。
索引管理控制字段是否参与索引,影响检索和问答召回。
隐藏控制字段是否参与 Analytics Agent 问答理解和结果展示;不替代底层数据权限。
刷新时间显示字段配置或识别结果的最近刷新时间。

字段描述质量会直接影响自然语言问答效果。关键字段建议补充清晰描述。

常见列类型和用途示例:

类型或用途含义
CATEGORICAL
CATEGORICAL
类别字段,例如
plan
plan
country
country
CONTINUOUS
CONTINUOUS
连续数值字段,例如
seats
seats
DATE_AND_TIME
DATE_AND_TIME
日期或时间字段,例如创建时间、订单时间。
PARTITION
PARTITION
分区字段,用于表示数据分区或分区范围。
OTHER
OTHER
其他类型,虚拟列可能默认识别为该类型。
DIM
DIM
可作为分析维度。
FILTER
FILTER
可作为筛选条件。
MEASURE
MEASURE
可作为度量字段参与聚合。

实测列类型下拉的可选值包括:

  • CATEGORICAL
    CATEGORICAL
  • CONTINUOUS
    CONTINUOUS
  • DATE_AND_TIME
    DATE_AND_TIME
  • PARTITION
    PARTITION
  • OTHER
    OTHER

实测字段用途包括:

  • DIM
    DIM
  • FILTER
    FILTER
  • MEASURE
    MEASURE

同一个字段可以有多个用途。例如

id
id
可显示为
DIM
DIM
FILTER
FILTER
seats
seats
可显示为
FILTER
FILTER
MEASURE
MEASURE

表自动关联

“自动关联”用于让系统根据域内多张表的字段信息自动识别可能的表关联关系。

实测行为:

  1. 当前域只有 1 张表时,“自动关联”按钮置灰,不可点击。
  2. 当前域有 2 张及以上表时,“自动关联”按钮变为可点击。
  3. 点击后会先显示“正在关联”,系统完成识别后打开“确认关联”弹窗。
  4. 弹窗表格列包括“源表”“源表列”“目标表”“列”“源表列:目标表列”。
  5. 如果系统未识别出关联关系,弹窗显示“暂无表关联”。

本次使用

ns227206.public.v_gpt_accounts
ns227206.public.v_gpt_accounts
quick_start.cat_litter.v_gpt_category_mapping
quick_start.cat_litter.v_gpt_category_mapping
两张表测试,自动关联弹窗显示“暂无表关联”,说明自动关联不会强行生成 Join;只有当字段名、字段语义或数据关系满足系统识别条件时,才会给出候选关联。

gaming_profiles_playstation
gaming_profiles_playstation
域中,域内已有多张游戏、玩家、成就和价格相关表。点击“自动关联”后,系统识别出候选关系:

源表源表列目标表目标列关系
quick_start.gaming_profiles_playstation.prices
quick_start.gaming_profiles_playstation.prices
gameid
gameid
quick_start.gaming_profiles_playstation.games
quick_start.gaming_profiles_playstation.games
gameid
gameid
n:1
n:1

这说明自动关联可以发现候选主外键关系,但不会直接替你完成业务确认。管理员需要判断该关系是否符合真实数据模型,再决定是否保存。

建议:

  • 自动关联结果必须人工确认后再保存。
  • 如果弹窗显示“暂无表关联”,需要手动检查两张表是否真的有可 Join 字段。
  • 不要为了让多表问答可用而随意配置 Join,错误 Join 会导致数据膨胀或指标口径错误。
  • 配置后应通过典型问题和 SQL 校验结果是否符合业务预期。

表关联配置完成后,可以在分析域表列表的“表关联”列看到当前表关联了哪些表,也可以进入表详情页,在字段级别查看某个字段关联到哪张表的哪个字段。例如

purchased_games
purchased_games
表中的
playerid
playerid
关联到玩家表,
library
library
关联到游戏表。字段级关系能帮助系统在多表问答时选择正确 JOIN 路径。

新建虚拟列

虚拟列用于基于已有字段计算出一个新的分析字段,适合处理拼接、转换、分类、派生标签等场景。

操作步骤:

  1. 进入表详情页。
  2. 打开“表结构”页签。
  3. 点击“新建虚拟列”。
  4. 填写字段名。
  5. 在 SQL 编辑区填写表达式。
  6. 点击
    Run
    Run
    校验。
  7. 如果显示“运行成功”并返回样例数据,再点击“确认”保存。

实测示例:基于

first_name
first_name
last_name
last_name
生成姓名字段。

concat(first_name, ' ', last_name)

点击

Run
Run
后,页面返回“运行成功”,并展示样例数据,例如:

Macy Kub Kim Cormier Princess Tillman Jeramie Pfannerstill Clay Johnston

确认保存后,字段数从 16 变为 17。本次测试中新字段在表结构列表中显示为“虚拟列”,类型识别为

string
string
,列类型为
OTHER
OTHER
,用途为
FILTER
FILTER
。保存后应回到字段列表检查字段名、别名、描述、列类型和用途是否符合预期;如果自动识别结果不合适,需要继续编辑字段配置。

虚拟列 SQL 建议:

  • 只引用当前表中已经存在的字段。
  • 先写简单表达式并用
    Run
    Run
    校验。
  • 对字符串拼接、日期转换、数值分桶等场景优先使用 Lakehouse 支持的 SQL 函数。
  • 保存后补充字段别名和描述,让用户知道该虚拟列代表什么。

数据预览

“数据预览”页签用于快速查看表数据。页面提示“预览仅显示前10条数据”。如果预览区显示“暂无数据”,需要结合表数据刷新、权限、视图 SQL 和数据源状态排查。

统计分析

“统计分析”页签按字段展示统计结果。实测列包括:

统计项说明
COUNT
COUNT
字段计数。
NULL VALUE
NULL VALUE
空值数量。
DISTINCT
DISTINCT
去重值数量。
MIN
MIN
最小值。
MAX
MAX
最大值。
AVERAGE
AVERAGE
平均值。
SUM
SUM
求和。
分区范围分区字段或分区范围信息。

例如

id
id
字段统计显示
COUNT
COUNT
为 2,495、
NULL VALUE
NULL VALUE
为 0、
DISTINCT
DISTINCT
为 2,493、
MIN
MIN
为 1、
MAX
MAX
为 2,495。上线前建议查看统计分析,确认关键字段是否存在大量空值、异常最大最小值或明显不合理的去重数量。

配置指标

指标用于稳定回答“总数、平均值、最大值、最小值、占比、金额汇总”等问题。

系统在导入表后可能自动生成指标,例如:

  • 账户总数:
    COUNT(id)
    COUNT(id)
  • 总座位数:
    SUM(seats)
    SUM(seats)
  • 平均座位数:
    AVG(seats)
    AVG(seats)
  • 最晚创建时间:
    MAX(created_at)
    MAX(created_at)
  • 最早试用结束时间:
    MIN(trial_ends_at)
    MIN(trial_ends_at)

建议采纳明显合理的自动指标,并对名称和口径进行人工检查。对于业务口径复杂的指标,应使用”复杂指标”或”答案构建器”配置,详见指标与答案构建器

配置知识

知识用于补充系统无法仅靠表字段理解的业务语义,例如:

  • 专有名词解释。
  • 指标口径说明。
  • 字段同义词。
  • 业务缩写。
  • 组织内部约定。

示例:

术语解释
活跃账户当前
active_subscription
active_subscription
为 true 的账户。
试用转化
trial_converted
trial_converted
为 true 表示试用账户已转为付费账户。
套餐
plan
plan
字段表示账户订阅的产品套餐。

配置文件

文件用于文档问答场景。你可以上传产品手册、合同、政策说明、业务说明文档等,然后在分析域中围绕文件内容提问。

在“数据 > 文件”点击“添加文件”后,系统提供两个入口:

入口说明
上传文件上传新的文档问答文件。
选择已有文件从系统已有文件中选择并关联到当前分析域。

上传文件时,实测页面提示支持 Excel 文件

.xlsx
.xlsx
、文本文件
.txt
.txt
、PDF 文件
.pdf
.pdf
,最大 10MiB。Excel 上传区提供“下载模版”入口。选择已有文件时,列表会展示文件名、创建人、更新时间,并支持搜索和分页。

建议:

  • 上传前确认文件内容与该分析域主题相关。
  • 文件命名应清晰。
  • 避免上传重复、过期或无关文档。
  • 涉及敏感信息的文件应先确认权限范围。

权限管理

在“权限”页签中,可以配置哪些用户可以访问或管理该分析域。

权限配置建议:

  • 域负责人保留写权限。
  • 只需要问答的用户授予访问或使用权限。
  • 涉及敏感数据的域,应限制到最小必要人员。
  • 删除用户权限前确认该用户是否仍负责维护指标、字段或推荐问题。

开始分析

配置完成后,可以通过以下入口开始分析:

  1. 分析域列表中的“开始分析”按钮。
  2. 分析域详情页右上角“开始分析”按钮。
  3. 完成添加表流程后的“完成并开始分析”按钮。

进入分析页后,你可以在输入框中直接提问,例如:

  • 账户总数是多少?
  • 按国家统计账户数量。
  • 各套餐的账户数量分布如何?
  • 平均座位数是多少?

系统会返回分析结果,可能包括数字卡片、图表、文字解释和 SQL 语句入口。

查看 SQL 和分析记录

回答生成后,结果区域通常会提供:

操作说明
SQL 语句查看系统生成并执行的 SQL,便于校验口径。
记录查看分析过程或执行记录。
重试重新生成回答。
反馈对回答质量进行反馈。

建议在上线前用典型问题检查 SQL 是否符合业务预期。

编辑、复制和删除分析域

分析域详情页右上角提供常见管理操作:

操作说明
编辑修改名称、备注等基础信息。
复制基于当前域复制一个新的分析域,适合复用配置。
删除删除当前分析域。

删除前请确认:

  • 该域不再被用户使用。
  • 推荐问题、权限、指标和知识配置不需要保留。
  • 相关分析历史是否仍需要保留或导出。
  • 删除操作通常不可逆,应谨慎执行。

相关文档

示例:账户分析域最小配置

假设需要创建一个账户分析域,可按以下方式配置:

配置项示例
分析域名称账户运营分析
数据表
ns227206.public.v_gpt_accounts
ns227206.public.v_gpt_accounts
核心指标账户总数、总座位数、平均座位数
核心字段
id
id
plan
plan
country
country
created_at
created_at
active_subscription
active_subscription
推荐问题账户总数是多少?按国家统计账户数量。不同套餐账户分布如何?
知识活跃账户、试用转化、套餐等术语解释

验证问题示例:

账户总数是多少?

如果配置正确,系统应返回账户总数,并给出对应表或 SQL 依据。

联系我们
预约咨询
微信咨询
电话咨询
邮件咨询