Pipe 持续导入

Pipe 是云器 Lakehouse 的持续数据导入管道对象，用于从 Kafka 或对象存储（OSS/S3/COS）持续导入数据到 Lakehouse 表中。

可以把 Pipe 理解为一条自动传送带：数据文件上传到 OSS/S3/COS，或消息写入 Kafka 后，Pipe 自动检测并入库，无需人工触发，也不需要配置定时任务。

选型参考：如果你习惯用 SQL 管理数据管道，选 Pipe；如果需要接入关系型数据库（MySQL/PostgreSQL 等），或者偏好可视化配置，选 Studio 同步任务。

什么是 Pipe

Pipe 是一个 SQL 对象，通过 DDL 语句创建。创建后 Pipe 会持续运行，自动从数据源读取数据并写入目标表。

与 Studio 同步任务的区别：

维度	Pipe	Studio 同步任务
创建方式	SQL DDL	Studio 可视化界面
管理方式	SQL 命令	Studio 界面 + cz-cli
适用场景	熟悉 SQL、需要代码化管理数据管道	偏好可视化配置，或需要接入关系型数据库
数据源	Kafka、对象存储	关系型数据库、Kafka、对象存储

两者功能等价，根据使用习惯选择。

Pipe 的类型

Kafka Pipe

从 Kafka Topic 持续消费数据并写入 Lakehouse 表。

CREATE PIPE kafka_pipe VIRTUAL_CLUSTER = 'DEFAULT' AS COPY INTO orders FROM ( SELECT ... -- 用 parse_json(CAST(value AS STRING)) 解析消息 FROM TABLE(READ_KAFKA('broker:9092', 'orders_topic', '', 'group_id', '', '', '', '', 'raw', 'raw', 0, map())) ); -- READ_KAFKA 用位置参数，完整参数与 JSON 解析见 pipe-kafka.md

两种接入路径：

READ_KAFKA Pipe（推荐）：直接在 Pipe 中使用
```
READ_KAFKA()
```
READ_KAFKA()
函数
Kafka 外部表 + Table Stream：先创建 Kafka 外部表，再通过 Table Stream 消费

对象存储 Pipe

从 OSS/S3/COS 持续扫描新文件并导入。

CREATE PIPE oss_pipe VIRTUAL_CLUSTER = 'DEFAULT' INGEST_MODE = 'LIST_PURGE' AS COPY INTO orders FROM VOLUME my_volume USING CSV PURGE = TRUE;

两种扫描模式对比：

维度	LIST_PURGE	EVENT_NOTIFICATION
触发方式	定期轮询扫描目录	对象存储事件通知（近实时触发）
支持云	OSS、S3、COS	仅 OSS、S3
授权方式	密钥或 Role ARN	仅 Role ARN
源文件处理	导入成功后自动删除源文件（需 `PURGE = TRUE` PURGE = TRUE ）	保留源文件
配置复杂度	简单，无需额外配置	需要配置 MNS 队列

警告：

LIST_PURGE

LIST_PURGE

模式会在导入成功后永久删除对象存储中的源文件。如果需要保留原始文件，请使用

EVENT_NOTIFICATION

EVENT_NOTIFICATION

模式。

⚠️ 注意：每个 Pipe 必须对应独立的 Volume。Pipe 的 COPY 语句不支持

FILES

FILES

、

SUBDIRECTORY

SUBDIRECTORY

或

REGEXP

REGEXP

参数。

Pipe 生命周期

Create Pipe --> Auto Run --> Continuous Ingestion | | v v Suspend Pipe Monitor Status | v Resume Pipe

监控 Pipe

-- 查看 Pipe 状态 SHOW PIPES; -- 查看 Pipe 详情 DESC PIPE my_pipe;

适用场景

Kafka 实时接入：日志数据、业务事件实时写入
对象存储批量导入：定期上传的 CSV/JSON/Parquet 文件自动入库
替代定时任务：无需配置 Cron，Pipe 持续运行