数据接入

Lakehouse 支持数据库实时同步、文件导入和消息队列接入三类方案,按数据来源选择。


我有关系型数据库(MySQL / PostgreSQL / SQL Server 等)

推荐:Studio 数据同步任务,可视化配置,支持全量 + 实时增量,无需写代码。

场景方案参考文档
单表或少量表,实时同步Studio 实时同步任务(CDC)实时同步任务
整库同步,业务库镜像到 LakehouseStudio 多表实时同步多表实时同步完整指南
离线定期同步(T+1 或 H+1)Studio 离线同步任务离线同步任务 · FAQ
Oracle 数据库实时同步Bluepipe 集成Oracle 实时同步
通过私网(VPC / Private Link)同步Studio + Private LinkVPC 内 RDS 同步

我有文件(CSV / Parquet / JSON 等)

场景方案参考文档
文件在本地,快速导入Studio 上传 或 PUT + COPY INTO导入本地数据 · 快速上传导入
文件在 OSS / S3 / COS,一次性导入COPY INTO + Volume从对象存储批量导入
文件持续上传到 OSS / S3,自动入库Pipe(对象存储模式)Pipe 持续导入 · 对象存储 Pipe
飞书表格 / 在线表格导入飞书数据导入如何导入飞书表格

我有 Kafka 消息流

场景方案参考文档
持续消费 Kafka Topic 写入表Pipe(Kafka 模式)Kafka Pipe
通过 Studio 可视化配置 Kafka 同步Studio 实时同步任务Kafka 实时同步
需要对消息做复杂处理再入库Kafka 外部表 + Table StreamKafka 外表 + Table Stream

我有自定义数据源或需要编程接入

场景方案参考文档
Java 应用批量写入Java SDK BulkLoadJava SDK 批量上传
Java 应用实时写入(毫秒级)Java SDK RealtimeStreamJava SDK 实时上传
Python 应用批量写入Python SDKPython SDK 上传
Python 数据处理任务Studio Python 任务Python 任务开发
Flink 写入Flink ConnectorFlink 写入 Lakehouse
使用开源 ETL 工具Airbyte / DataX生态工具集成

我要从其他数仓迁移过来

来源参考文档
从 Snowflake 迁移Snowflake ETL Pipeline 迁移指南
从 Spark 数据工程迁移Spark 最佳实践迁移指南
从阿里云数据湖迁移阿里云数据湖迁移指南

不确定用哪种方式?

看这张决策图:

你的数据来源是什么? ├── 关系型数据库(MySQL / PG / SQL Server) │ ├── 需要实时同步 → Studio 多表实时同步 │ └── 离线定期同步 → Studio 离线同步任务 ├── 文件(CSV / Parquet / JSON) │ ├── 一次性导入 → COPY INTO │ └── 持续自动入库 → Pipe(对象存储模式) ├── Kafka 消息流 │ ├── 简单消费入库 → Pipe(Kafka 模式) │ └── 复杂处理 → Kafka 外部表 + Table Stream └── 自定义 / 编程接入 → SDK 或 Python 任务

完整方案对比见:将数据导入 Lakehouse 的完整指南

联系我们
预约咨询
微信咨询
电话咨询