分析域配置原则与常见问题
本文汇总配置分析域过程中的关键原则、常见问题和推荐流程,来自实际页面操作验证。建议在首次配置前通读原则部分,避免走弯路。
配置原则
以下原则来自实际页面操作。建议你先建立这些概念,再开始配置。
分析域不是表配置的全部入口
分析域负责把表、指标、答案构建器、知识、文件和权限组织到一个业务上下文中。但每张表的深度配置不在分析域表列表里完成。
正确路径是:
- 进入"分析域管理 > 数据 > 表"。
- 点击已加入域的"表展示名"。
- 跳转到"数据 > 表"的表详情页。
- 在表详情页继续配置表展示名、表描述、字段、虚拟列、索引、隐藏、列类型、用途、表关联、数据预览和统计分析。
因此,完成"添加表"不代表表配置完成。上线前必须进入每张表详情页检查字段配置。
"导入表"和"选择已有表"不是同一个动作
"导入表"用于把 Lakehouse 中的物理表首次生成可问答表资产。"选择已有表"用于把已经存在的表资产加入当前分析域。
如果某张表在导入列表中变灰不可选,说明该表已经导入过或已经存在可问答表资产。此时应切换到"选择已有表",复用已有表资产,而不是重复导入。
复用已有表通常能保留已有的字段配置、描述、索引、指标或其他治理结果,适合多个分析域共享同一张业务表。
自动识别结果必须复查
系统会自动识别字段类型、列类型、用途,也可能推荐指标或表关联。但这些结果只是初始建议,不应直接等同于业务口径。
实际操作中可以看到:
- 字符串字段常被识别为
,用途可能是CATEGORICAL
和DIM
。FILTER - 数值字段可能被识别为
,用途可能是CONTINUOUS
和FILTER
。MEASURE - 虚拟列保存后可能被识别为
和OTHER
。FILTER - 字段识别或刷新操作会更新刷新时间。
因此,表加入域后要逐列检查:别名是否业务可读、描述是否清晰、列类型是否正确、用途是否符合分析场景。
系统会自动完成哪些配置
字段配置、指标建立和表关联都比较繁琐。Analytics Agent 会自动完成一部分基础工作,并在关键位置给出建议,减少从零配置的成本。
实际操作中,系统会自动处理或提示以下内容:
| 阶段 | 系统自动行为 | 你需要做什么 |
|---|---|---|
| 新建分析域后 | 弹出"新建成功"配置引导,提示添加表、指标等数据。 | 点击"添加数据"继续配置,或点击"暂不"稍后配置。 |
| 空域基础信息页 | 显示"数据健康度"空状态和"点击前往"入口。 | 进入数据配置页添加表。 |
| 导入表后 | 生成可问答表资产,通常是 表或视图。 | 检查表展示名、表描述和字段配置。 |
| 表结构生成 | 自动识别字段类型、列类型、用途、索引状态等。 | 复查字段别名、描述、列类型、用途、隐藏和索引。 |
| 简单指标建议 | 根据字段自动给出简单指标建议,例如计数、求和、平均值、最大值、最小值。 | 勾选采纳合理指标,删除或跳过不符合业务口径的指标。 |
| 虚拟列 Run | 执行 SQL 表达式并返回样例数据。 | 判断样例数据是否符合预期,再保存并复查字段配置。 |
| 多表场景 | "自动关联"尝试发现候选表关联。 | 在"确认关联"弹窗中人工确认,不要盲目保存。 |
| 健康度扫描 | 扫描可能影响问答正确性的配置项。 | 处理警告和异常,必要时重新扫描。 |
需要特别说明:系统自动生成的是"初始配置"和"候选建议",不是最终业务确认。尤其是指标和表关联,必须由了解业务口径的人确认。
简单指标建议不是最终指标口径
导入表并完成字段配置后,系统可能会自动推荐简单指标。实际测试中,账户表导入后曾自动生成 5 个指标建议,包括:
- 账户总数:
COUNT(id) - 总座位数:
SUM(seats) - 平均座位数:
AVG(seats) - 最晚创建时间:
MAX(created_at) - 最早试用结束时间:
MIN(trial_ends_at)
这类指标适合快速启动问答,但仍要检查:
- 指标名称是否符合业务表达。
- 聚合函数是否正确。
- 字段是否适合作为指标。
- 是否需要过滤条件,例如排除测试数据、只统计有效记录。
- 时间字段的最大值、最小值是否真的有业务价值。
- 指标是否需要改成答案构建器或复杂 SQL。
简单指标建议可以提高配置效率,但不能替代业务口径评审。
虚拟列是"先验证,再保存,再复查"
新建虚拟列不是只写 SQL 后保存。实际流程应是:
- 填字段名。
- 写 SQL 表达式。
- 点击
。Run - 查看是否"运行成功"和样例数据是否符合预期。
- 点击"确认"保存。
- 回到表结构列表检查保存后的字段名、类型、列类型、用途、刷新时间。
Run 成功只能说明表达式可以执行,不代表保存后的语义配置已经完全正确。
自动关联只负责发现候选关系
自动关联不是自动生成必然正确的 Join。实际测试中:
- 域内只有 1 张表时,"自动关联"按钮置灰。
- 域内有 2 张及以上表时按钮启用。
- 点击后会打开"确认关联"弹窗。
- 如果系统没有识别到关系,会显示"暂无表关联"。
这说明自动关联是候选关系发现工具,而不是强制 Join 工具。即使系统识别出候选关系,也需要人工确认源表、源表列、目标表和目标列是否符合业务事实。
健康度是发布前检查入口
基础信息页的"数据健康度"会扫描可能影响问答正确性的配置项,例如字段描述缺失、字段控制、表关联关系、是否定义指标与答案构建器等。
新建空域时,健康度区域会提示"您还没有任何数据,请添加数据",并提供"点击前往"跳到数据配置页。添加数据后,健康度区域会显示状态、更新时间、重新扫描入口和问题列表。
发布分析域前,应至少执行一次健康度扫描,并处理警告或异常项。
新建成功弹窗是配置引导
创建分析域成功后,系统会弹出"新建成功"引导弹窗。这个弹窗不是普通提示,而是引导你继续配置数据。
实测弹窗文案为:
按钮行为:
| 按钮 | 行为 |
|---|---|
| 暂不 | 关闭引导,停留在分析域列表。 |
| 添加数据 | 进入新建分析域的详情页。 |
点击"添加数据"后,会进入新域的"基础信息"页。页面仍会显示"数据健康度"空状态,并在页面底部显示"分析域可以添加哪些数据"引导区,包括表、指标、答案构建器、文件等说明,以及"开始添加"按钮。
因此,新建域后的推荐操作顺序是:先点击"添加数据",进入新域详情页,再通过"开始添加"或"数据"页签进入表、指标、答案构建器、文件配置。
常见问题
为什么表是灰色不可选?
该表已经添加过或已经存在于系统中。请切换到"选择已有表"入口添加,不要重复导入。
为什么"自动关联"按钮不可用?
通常是当前域内表数量不足,或系统尚未识别出可关联字段。至少添加多张有公共关联键的表后,再尝试自动关联。
为什么问答效果不稳定?
常见原因包括字段描述缺失、指标口径不清、表名字段名过于技术化、缺少业务知识、Join 关系不明确。建议补充字段别名、字段描述、指标和知识。
为什么系统提示 workspace 数据不可见?
如果添加表弹窗提示 Lakehouse Workspace 数据未显示,可能是系统用户
sysservice_decision 未被添加到目标工作空间。需要由具备 workspace_admin 角色的用户执行授权。
参考 SQL:
删除域会删除物理表吗?
删除分析域通常只删除域配置和域内关联关系,不应直接删除 Lakehouse 物理表。但删除前仍应确认当前系统的删除提示和影响范围。
为什么虚拟列 Run 成功后还要检查字段列表?
Run 只表示 SQL 表达式可以运行,并会展示样例数据。保存后系统还会识别字段类型、列类型和用途。本次测试中,虚拟列保存后显示为"虚拟列",类型为 string,列类型为 OTHER,用途为 FILTER。如果该字段实际应作为维度或度量使用,需要继续检查并调整字段配置。
健康检查与质量建议
系统会对分析域进行健康检查,常见检查包括:
- 数据表字段描述是否缺失。
- 字段是否存在乱码。
- 表关联字段是否重复。
- Join 关系是否合理。
- 字段定义是否存在歧义。
- 物理表或字段是否发生变更。
- 域内是否存在指标。
- 知识定义是否冲突或重叠。
发布分析域前建议完成以下检查:
- 至少配置 1 张可用表。
- 至少配置 1 个核心指标。
- 关键字段有清晰别名和描述。
- 多表分析场景已配置正确 Join 关系。
- 推荐问题可以正常返回结果。
- SQL 语句符合业务口径。
- 权限范围符合数据安全要求。
推荐配置流程
面向普通业务分析场景,建议按以下顺序配置:
- 创建分析域并填写清晰名称和备注。
- 添加核心业务表。
- 检查字段类型、别名、描述和用途。
- 采纳或手动创建核心指标。
- 如涉及多表分析,配置表关联。
- 补充业务知识和术语解释。
- 配置用户权限。
- 添加推荐问题。
- 进入"开始分析"验证典型问题。
- 查看 SQL,确认结果和业务口径一致。
