数据分析与 SQL 指南

Lakehouse 的分析能力覆盖六个方向:交互式 SQL 查询、BI 工具连接出报表、对象存储文件直查、跨系统联邦查询、AI 对话式分析,以及查询性能优化。


我要用 SQL 查询和分析数据

推荐:直接在 Studio 编写 SQL,支持标准 SQL 语法,包括窗口函数、CTE、JOIN、子查询等。

场景参考文档
SQL 查询基础语法SQL 查询语法
同比 / 环比 / 排名(窗口函数)通过窗口函数进行数据转换
复杂多步查询(CTE)通过 CTE 进行数据转换
漏斗分析 / 留存分析SQL 转换技巧
会话分析(Sessionization)会话分析指南 — 事件流切分、会话时长、跳出率、用户路径
营销归因分析归因分析指南 — 首次/末次/线性/时间衰减/U-Shape 归因模型
数据去重 / BITMAP 用户圈选数据去重处理 · BITMAP 用户分析
数据透视(行转列 / 列转行)数据透视与行列转换
累计计算 / 运行总计累计计算与运行总计
层级查询(组织架构/BOM)层级查询 Workaround — 路径枚举、闭包表、固定深度 JOIN
JSON / 嵌套数据处理复杂业务场景 JSON 处理指南

我要连接 BI 工具出报表

推荐:JDBC / ODBC 连接,主流 BI 工具均已支持。

BI 工具参考文档
FineBIFineBI 连接指南
PowerBIPowerBI 连接指南
TableauTableau 连接指南
SupersetSuperset 连接指南
其他工具生态工具集成总览

我要分析数据湖文件(OSS / S3 / COS)

推荐:Volume + SQL 直查,无需先导入表,直接查询对象存储上的 Parquet、CSV、JSON 文件。

场景参考文档
直接查询对象存储文件数据湖文件分析
管理和挂载对象存储Volume 管理

我要查询外部数据源(不迁移数据)

推荐:External Catalog 联邦查询,直接查询 Hive、Databricks、Snowflake 等外部系统,无需数据迁移。

场景参考文档
联邦查询概述联邦查询
查询 Hive / Hadoop 数据External Catalog

我要用 AI 分析数据

场景方案参考文档
用自然语言提问,AI 自动生成 SQLData Analytics Agent (DataGPT) 对话分析Data Analytics Agent (DataGPT) 介绍 · Data Analytics Agent (DataGPT) 使用教程
语义搜索 / RAG 应用向量检索向量检索 · 向量检索与 RAG 应用实战
在 SQL 中调用大模型AI 函数AI 函数使用指南
用业务术语查询(无需写 JOIN)语义视图语义视图概述

我要优化查询性能

场景方案参考文档
高频复杂查询太慢物化视图(预计算 + 查询改写)物化视图
重复查询结果缓存Result Cache性能优化
大表扫描慢排序列 / 分区设计表设计最佳实践
小文件过多影响性能小文件合并性能优化
查询慢,想定位瓶颈Job Profile 诊断作业历史分析

不确定用哪种方式?

你的分析需求是什么? ├── 数据已在 Lakehouse 表中 │ ├── 一次性查询 / 报表 → 直接写 SQL │ ├── 高频复杂查询需要加速 → 物化视图 │ └── 用自然语言提问 → Data Analytics Agent (DataGPT) ├── 数据在对象存储(OSS / S3 / COS) │ ├── 不需要长期保留 → Volume 直查 │ └── 需要持续分析 → 先导入表,再查询 └── 数据在其他系统(Hive / Snowflake 等) ├── 不想迁移数据 → External Catalog 联邦查询 └── 需要长期分析 → 先同步到 Lakehouse

联系我们
预约咨询
微信咨询
电话咨询