数据接入
Lakehouse 支持数据库实时同步、文件导入和消息队列接入三类方案,按数据来源选择。
我有关系型数据库(MySQL / PostgreSQL / SQL Server 等)
推荐:Studio 数据同步任务,可视化配置,支持全量 + 实时增量,无需写代码。
| 场景 | 方案 | 参考文档 |
|---|---|---|
| 单表或少量表,实时同步 | Studio 实时同步任务(CDC) | 实时同步任务 |
| 整库同步,业务库镜像到 Lakehouse | Studio 多表实时同步 | 多表实时同步完整指南 |
| 离线定期同步(T+1 或 H+1) | Studio 离线同步任务 | 离线同步任务 · FAQ |
| Oracle 数据库实时同步 | Bluepipe 集成 | Oracle 实时同步 |
| 通过私网(VPC / Private Link)同步 | Studio + Private Link | VPC 内 RDS 同步 |
我有文件(CSV / Parquet / JSON 等)
| 场景 | 方案 | 参考文档 |
|---|---|---|
| 文件在本地,快速导入 | Studio 上传 或 PUT + COPY INTO | 导入本地数据 · 快速上传导入 |
| 文件在 OSS / S3 / COS,一次性导入 | COPY INTO + Volume | 从对象存储批量导入 |
| 文件持续上传到 OSS / S3,自动入库 | Pipe(对象存储模式) | Pipe 持续导入 · 对象存储 Pipe |
| 飞书表格 / 在线表格导入 | 飞书数据导入 | 如何导入飞书表格 |
我有 Kafka 消息流
| 场景 | 方案 | 参考文档 |
|---|---|---|
| 持续消费 Kafka Topic 写入表 | Pipe(Kafka 模式) | Kafka Pipe |
| 通过 Studio 可视化配置 Kafka 同步 | Studio 实时同步任务 | Kafka 实时同步 |
| 需要对消息做复杂处理再入库 | Kafka 外部表 + Table Stream | Kafka 外表 + Table Stream |
我有自定义数据源或需要编程接入
| 场景 | 方案 | 参考文档 |
|---|---|---|
| Java 应用批量写入 | Java SDK BulkLoad | Java SDK 批量上传 |
| Java 应用实时写入(毫秒级) | Java SDK RealtimeStream | Java SDK 实时上传 |
| Python 应用批量写入 | Python SDK | Python SDK 上传 |
| Python 数据处理任务 | Studio Python 任务 | Python 任务开发 |
| Flink 写入 | Flink Connector | Flink 写入 Lakehouse |
| 使用开源 ETL 工具 | Airbyte / DataX | 生态工具集成 |
我要从其他数仓迁移过来
| 来源 | 参考文档 |
|---|---|
| 从 Snowflake 迁移 | Snowflake ETL Pipeline 迁移指南 |
| 从 Spark 数据工程迁移 | Spark 最佳实践迁移指南 |
| 从阿里云数据湖迁移 | 阿里云数据湖迁移指南 |
不确定用哪种方式?
看这张决策图:
完整方案对比见:将数据导入 Lakehouse 的完整指南
联系我们
