Pipe 持续导入
Pipe 是云器 Lakehouse 的持续数据导入管道对象,用于从 Kafka 或对象存储(OSS/S3/COS)持续导入数据到 Lakehouse 表中。
可以把 Pipe 理解为一条自动传送带:数据文件上传到 OSS/S3/COS,或消息写入 Kafka 后,Pipe 自动检测并入库,无需人工触发,也不需要配置定时任务。
选型参考:如果你习惯用 SQL 管理数据管道,选 Pipe;如果需要接入关系型数据库(MySQL/PostgreSQL 等),或者偏好可视化配置,选 Studio 同步任务。
什么是 Pipe
Pipe 是一个 SQL 对象,通过 DDL 语句创建。创建后 Pipe 会持续运行,自动从数据源读取数据并写入目标表。
与 Studio 同步任务的区别:
| 维度 | Pipe | Studio 同步任务 |
|---|---|---|
| 创建方式 | SQL DDL | Studio 可视化界面 |
| 管理方式 | SQL 命令 | Studio 界面 + cz-cli |
| 适用场景 | 熟悉 SQL、需要代码化管理数据管道 | 偏好可视化配置,或需要接入关系型数据库 |
| 数据源 | Kafka、对象存储 | 关系型数据库、Kafka、对象存储 |
两者功能等价,根据使用习惯选择。
Pipe 的类型
Kafka Pipe
从 Kafka Topic 持续消费数据并写入 Lakehouse 表。
两种接入路径:
- READ_KAFKA Pipe(推荐):直接在 Pipe 中使用
函数READ_KAFKA() - Kafka 外部表 + Table Stream:先创建 Kafka 外部表,再通过 Table Stream 消费
对象存储 Pipe
从 OSS/S3/COS 持续扫描新文件并导入。
两种扫描模式对比:
| 维度 | LIST_PURGE | EVENT_NOTIFICATION |
|---|---|---|
| 触发方式 | 定期轮询扫描目录 | 对象存储事件通知(近实时触发) |
| 支持云 | OSS、S3、COS | 仅 OSS、S3 |
| 授权方式 | 密钥或 Role ARN | 仅 Role ARN |
| 源文件处理 | 导入成功后自动删除源文件(需 ) | 保留源文件 |
| 配置复杂度 | 简单,无需额外配置 | 需要配置 MNS 队列 |
Pipe 生命周期
监控 Pipe
适用场景
- Kafka 实时接入:日志数据、业务事件实时写入
- 对象存储批量导入:定期上传的 CSV/JSON/Parquet 文件自动入库
- 替代定时任务:无需配置 Cron,Pipe 持续运行
相关文档
- 实时数据管道选型指南:Pipe、Table Stream、Dynamic Table 的选型对比
- Pipe 简介
- Kafka Pipe
- 对象存储 Pipe
- Pipe 语法
联系我们
