生态体系
云器 Lakehouse 与主流数据集成、BI、AI 和开发工具均已适配,部署在阿里云、腾讯云、AWS 等七朵公有云上。本文档按方向汇总已验证的第三方工具和连接方案。
如果你需要的工具不在列表中,不代表不支持——Lakehouse 通过 JDBC、MySQL 协议和 Python/Java SDK 提供标准接入,任何兼容这些协议的工具都可以直接连接。如果你希望基于 Lakehouse 开发新的连接器或集成方案,也可以联系我们的合作伙伴团队。
云平台(CSP)
Lakehouse 部署在阿里云、腾讯云、AWS、GCP、华为云、百度智能云和火山引擎七朵云上。其中阿里云、腾讯云和 AWS 提供完整的独立文档(含存储连接、私网连接和权限配置),其余云平台的配置方式一致。同时支持 BYOS(自带存储)部署——数据存储在用户自己的云账号下,不经过云器平台。详见 支持云服务和地域 · 私有存储概述。
数据集成(Data Integration)
以下数据集成工具已适配 Lakehouse,覆盖离线批量、实时 CDC、消息流和日志采集等场景。Lakehouse 同时支持 50+ 数据源(MySQL、Oracle、PostgreSQL、MongoDB、Hive、MaxCompute 等),通过 Studio 数据同步直接接入,无需第三方工具:
| 工具 | 连接方式 | 说明 | 参考文档 |
|---|---|---|---|
| Apache Kafka | Kafka Connector | 消息流实时写入 Lakehouse | Kafka 数据源 |
| AutoMQ | Kafka 协议 | 新一代消息队列,兼容 Kafka 协议 | AutoMQ 数据源 |
| Airbyte | JDBC | 开源 ELT 平台,连接器丰富 | Airbyte 集成指南 |
| DataX | 插件式 | 阿里开源,适合批量数据同步 | DataX 集成指南 |
| Apache Flink | Flink Connector | 流计算引擎,实时写入 Lakehouse | Flink Connector |
| Apache Spark | Spark Connector | 大规模数据读写 Lakehouse 表 | Spark Connector |
| Logstash | Logstash Connector | 日志数据导入 Lakehouse | Logstash 集成指南 |
| Bluepipe | 原生接入 | Oracle 到 Lakehouse 的 CDC 实时同步 | Bluepipe 同步指南 |
BI 与可视化
以下 BI 工具已适配 Lakehouse。任何支持 JDBC、ODBC 或 MySQL 协议的 BI 工具均可直接连接,不限于以下列表:
| 工具 | 连接方式 | 说明 | 参考文档 |
|---|---|---|---|
| 帆软 FineBI | JDBC / MySQL | 国内主流 BI | JDBC 连接 · MySQL 协议 |
| Tableau | JDBC | 适合复杂可视化和探索分析 | Tableau 连接指南 |
| PowerBI | MySQL 协议 | 通过 MySQL 协议连接 | PowerBI 连接指南 |
| Apache Superset | SQLAlchemy | 开源,适合自助分析 | Superset 连接指南 |
| Metabase | JDBC | 开源,部署简单,适合中小团队 | Metabase 连接指南 |
| Apache Zeppelin | JDBC | Notebook 风格数据探索 | Zeppelin 连接指南 |
| Rath | JDBC | 开源智能分析,支持自动洞察 | Rath 连接指南 |
| Streamlit | Python SDK | 数据科学团队快速搭建数据应用 | Streamlit 连接指南 |
数据加工与计算引擎(Transformation & Compute)
以下数据转换工具和计算引擎已适配 Lakehouse:
| 工具 | 连接方式 | 说明 | 参考文档 |
|---|---|---|---|
| dbt | dbt-clickzetta adapter | 数据建模和转换,支持 Dynamic Table 物化 | dbt 集成指南 |
| Apache Spark | Spark Connector | 大规模批处理和机器学习 | Spark Connector |
| Apache Flink | Flink Connector | 实时流计算 | Flink Connector |
dbt 系列文档覆盖从快速入门到迁移实战的全部场景:jaffle-shop 体验、Snowflake/BigQuery 迁移、增量处理、实时管道、数据质量测试。详见 DBT 实战系列。
AI 与机器学习
以下 AI 框架和平台已适配 Lakehouse,支持向量存储、RAG 应用和 AI 工作流等场景:
| 工具 | 集成方式 | 说明 | 参考文档 |
|---|---|---|---|
| LangChain | Python SDK | 向量存储和 RAG 应用开发 | LangChain 集成 |
| LlamaIndex | Python SDK | 数据索引和检索 | LlamaIndex 集成 |
| Dify | MCP Server / SDK | 向量数据库 + 文件存储 | Dify 集成概览 |
| N8N | MCP Server | 统一 AI 工作流 | N8N 集成 |
| MindsDB | JDBC | ML/LLM 对 Lakehouse 数据建模和预测 | MindsDB 集成 |
| Datus | MCP Server | 数据工程智能体 | Datus 集成 |
| Zilliz | 联合方案 | 向量数据库联合方案 | Zilliz 联合方案 |
| Unstructured.io | SDK | 非结构化文档解析和向量化 | Unstructured.io 集成 |
Lakehouse 同时提供 MCP Server,可以被任意支持 MCP 协议的 AI Agent 调用。
开发接口(Programmatic Interfaces)
Lakehouse 提供以下原生编程接口和 SDK:
| 接口 | 语言 | 说明 | 参考文档 |
|---|---|---|---|
| JDBC 驱动 | Java / JVM | 标准 JDBC 接口,兼容所有 JVM 生态 | JDBC 驱动 |
| MySQL 协议 | 所有 | 无客户端依赖,兼容 MySQL 生态 | MySQL 协议连接 |
| Python SDK | Python | PEP 249 兼容,支持批量/实时写入 | Python SDK |
| Java SDK | Java | 支持 BulkLoad 和实时流写入 | Java SDK 批量上传 |
| SQLAlchemy | Python | Python 生态标准 ORM / SQL 工具 | SQLAlchemy 连接 |
| cz-cli | Shell | 命令行客户端,SQL + Studio Tasks + AI Agent | cz-cli 指南 |
SQL 客户端与数据库管理工具
这些工具通过 JDBC 或 MySQL 协议连接,兼容标准 SQL 操作:
| 工具 | 连接方式 | 说明 | 参考文档 |
|---|---|---|---|
| DBeaver | JDBC | 开源免费,社区版即可,适合日常查询和数据探索 | DBeaver 连接指南 |
| DataGrip | JDBC | JetBrains 出品,代码补全和 SQL 分析能力强 | DataGrip 连接指南 |
| SQL Workbench/J | JDBC | 轻量级,基础 SQL 执行 | SQL Workbench/J 连接指南 |
| Navicat | MySQL 协议 | 可视化管理,操作直观 | Navicat 连接指南 |
数据湖格式
Lakehouse 原生基于 Apache Iceberg,表以 Iceberg 格式存储,支持时间旅行、分区演进、Schema 演进和跨引擎访问。同时通过外部表兼容 Delta Lake 和 Hudi 格式:
| 格式 | 关系 | 说明 | 参考文档 |
|---|---|---|---|
| Apache Iceberg | 原生格式 | 所有 Lakehouse 表的底层格式,跨引擎访问 | Spark + Iceberg 分析 |
| Delta Lake | 外部表 | Databricks 生态的开放表格式 | Delta Lake 外部表 |
| Apache Hudi | 外部表 | 适用于流式写入的开放表格式 | Hudi 外部表 |
联邦查询:通过 External Catalog 直接查询 Hive、Databricks、Snowflake OpenCatalog 中的 Iceberg 表,无需迁移数据。详见 联邦查询。
现代数据栈(Modern Data Stack)
以下组合方案展示如何用 Lakehouse + 生态工具构建完整数据平台:
| 方案 | 工具链 | 参考文档 |
|---|---|---|
| 面向 ELT | Airbyte → Lakehouse → dbt → Metabase | ELT 现代数据栈 |
| 面向分析 | Lakehouse ← dbt → Superset | 分析现代数据栈 |
| BI + AI | Lakehouse + Zilliz | BI + AI 联合方案 |
