数据分析与 SQL 指南
Lakehouse 的分析能力覆盖六个方向:交互式 SQL 查询、BI 工具连接出报表、对象存储文件直查、跨系统联邦查询、AI 对话式分析,以及查询性能优化。
我要用 SQL 查询和分析数据
推荐:直接在 Studio 编写 SQL,支持标准 SQL 语法,包括窗口函数、CTE、JOIN、子查询等。
| 场景 | 参考文档 |
|---|---|
| SQL 查询基础语法 | SQL 查询语法 |
| 同比 / 环比 / 排名(窗口函数) | 通过窗口函数进行数据转换 |
| 复杂多步查询(CTE) | 通过 CTE 进行数据转换 |
| 漏斗分析 / 留存分析 | SQL 转换技巧 |
| 会话分析(Sessionization) | 会话分析指南 — 事件流切分、会话时长、跳出率、用户路径 |
| 营销归因分析 | 归因分析指南 — 首次/末次/线性/时间衰减/U-Shape 归因模型 |
| 数据去重 / BITMAP 用户圈选 | 数据去重处理 · BITMAP 用户分析 |
| 数据透视(行转列 / 列转行) | 数据透视与行列转换 |
| 累计计算 / 运行总计 | 累计计算与运行总计 |
| 层级查询(组织架构/BOM) | 层级查询 Workaround — 路径枚举、闭包表、固定深度 JOIN |
| JSON / 嵌套数据处理 | 复杂业务场景 JSON 处理指南 |
我要连接 BI 工具出报表
推荐:JDBC / ODBC 连接,主流 BI 工具均已支持。
| BI 工具 | 参考文档 |
|---|---|
| FineBI | FineBI 连接指南 |
| PowerBI | PowerBI 连接指南 |
| Tableau | Tableau 连接指南 |
| Superset | Superset 连接指南 |
| 其他工具 | 生态工具集成总览 |
我要分析数据湖文件(OSS / S3 / COS)
推荐:Volume + SQL 直查,无需先导入表,直接查询对象存储上的 Parquet、CSV、JSON 文件。
| 场景 | 参考文档 |
|---|---|
| 直接查询对象存储文件 | 数据湖文件分析 |
| 管理和挂载对象存储 | Volume 管理 |
我要查询外部数据源(不迁移数据)
推荐:External Catalog 联邦查询,直接查询 Hive、Databricks、Snowflake 等外部系统,无需数据迁移。
| 场景 | 参考文档 |
|---|---|
| 联邦查询概述 | 联邦查询 |
| 查询 Hive / Hadoop 数据 | External Catalog |
我要用 AI 分析数据
| 场景 | 方案 | 参考文档 |
|---|---|---|
| 用自然语言提问,AI 自动生成 SQL | Data Analytics Agent (DataGPT) 对话分析 | Data Analytics Agent (DataGPT) 介绍 · Data Analytics Agent (DataGPT) 使用教程 |
| 语义搜索 / RAG 应用 | 向量检索 | 向量检索 · 向量检索与 RAG 应用实战 |
| 在 SQL 中调用大模型 | AI 函数 | AI 函数使用指南 |
| 用业务术语查询(无需写 JOIN) | 语义视图 | 语义视图概述 |
我要优化查询性能
| 场景 | 方案 | 参考文档 |
|---|---|---|
| 高频复杂查询太慢 | 物化视图(预计算 + 查询改写) | 物化视图 |
| 重复查询结果缓存 | Result Cache | 性能优化 |
| 大表扫描慢 | 排序列 / 分区设计 | 表设计最佳实践 |
| 小文件过多影响性能 | 小文件合并 | 性能优化 |
| 查询慢,想定位瓶颈 | Job Profile 诊断 | 作业历史分析 |
不确定用哪种方式?
联系我们
