数据集成

Lakehouse 支持数据库实时同步、文件导入和消息队列接入三类方案，按数据来源选择。

我有关系型数据库（MySQL / PostgreSQL / SQL Server 等）

推荐：Studio 数据同步任务，可视化配置，支持全量 + 实时增量，无需写代码。

场景	方案	参考文档
单表或少量表，实时同步	Studio 实时同步任务（CDC）	实时同步任务
整库同步，业务库镜像到 Lakehouse	Studio 多表实时同步	多表实时同步完整指南
离线定期同步（T+1 或 H+1）	Studio 离线同步任务	离线同步任务 · FAQ
Oracle 数据库实时同步	Bluepipe 集成	Oracle 实时同步
通过私网（VPC / Private Link）同步	Studio + Private Link	VPC 内数据源同步

端到端示例：从 MySQL 数据库到 BI 报表的完整流程

我有文件（CSV / Parquet / JSON 等）

场景	方案	参考文档
文件在本地，快速导入	Studio 上传或 PUT + COPY INTO	导入本地数据 · 快速上传导入
文件在 OSS / S3 / COS，一次性导入	COPY INTO + Volume	从对象存储批量导入
文件持续上传到 OSS / S3，自动入库	Pipe（对象存储模式）	Pipe 持续导入 · 对象存储 Pipe
飞书表格 / 在线表格导入	飞书数据导入	如何导入飞书表格

两种持续入库模式的选择：如果文件上传后不需要保留原始文件，用

LIST_PURGE

LIST_PURGE

；需要保留原始文件或要求近实时触发，用

EVENT_NOTIFICATION

EVENT_NOTIFICATION

。详见 Pipe 持续导入。

我有 Kafka 消息流

场景	方案	参考文档
持续消费 Kafka Topic 写入表	Pipe（Kafka 模式）	Kafka Pipe
通过 Studio 可视化配置 Kafka 同步	Studio 实时同步任务	Kafka 实时同步
需要对消息做复杂处理再入库	Kafka 外部表 + Table Stream	Kafka 外表 + Table Stream

我有自定义数据源或需要编程接入

场景	方案	参考文档
Java 应用批量写入	Java SDK BulkLoad	Java SDK 批量上传
Java 应用实时写入（毫秒级）	Java SDK RealtimeStream	Java SDK 实时上传
Python 应用批量写入	Python SDK	Python SDK 上传
Python 数据处理任务	Studio Python 任务	Python 任务开发
Flink 写入	Flink Connector	Flink 写入 Lakehouse
使用开源 ETL 工具	Airbyte / DataX	生态工具集成

我要从其他数仓迁移过来

来源	参考文档
从 Snowflake 迁移	Snowflake ETL Pipeline 迁移指南
从 Spark 数据工程迁移	Spark 最佳实践迁移指南
从阿里云数据湖迁移	阿里云数据湖迁移指南

不确定用哪种方式？

看这张决策图：

你的数据来源是什么？ ├── 关系型数据库（MySQL / PG / SQL Server） │ ├── 需要实时同步 → Studio 多表实时同步 │ └── 离线定期同步 → Studio 离线同步任务 ├── 文件（CSV / Parquet / JSON） │ ├── 一次性导入 → COPY INTO │ └── 持续自动入库 → Pipe（对象存储模式） ├── Kafka 消息流 │ ├── 简单消费入库 → Pipe（Kafka 模式） │ └── 复杂处理 → Kafka 外部表 + Table Stream └── 自定义 / 编程接入 → SDK 或 Python 任务

完整方案对比见：将数据导入 Lakehouse 的完整指南

联系我们