云器 Lakehouse 数据工程实战手册

本文档旨在为数据工程师和架构师提供一份关于云器 Lakehouse 的数据接入选型、性能调优与生产运维诊断的综合指南。内容基于生产环境最佳实践提炼。

适用范围：本文档包含部分内部调优参数（

cz.*

cz.*

前缀），这些参数在 Session 级别通过

SET

SET

命令配置。部分参数可能随产品迭代被自适应机制取代，建议以官方文档为准。

第一部分：数据接入方案选型与实施

在将外部数据导入 Lakehouse 时，根据数据规模、实时性要求和运维习惯，主要有五种典型路径。

1.1 方案选型决策矩阵

方案	适用场景	数据量级	实时性	典型用例
Studio 界面导入	临时测试、小规模数据、无代码操作	< 2GB, < 200 列	一次性	快速上传 Excel/CSV 验证
Volume 加载 (View/Table)	大规模历史数据、超多列宽表	无限制	批处理	离线 CSV/Parquet 批量入库
对象存储 Pipe	OSS/S3/COS 持续监听、自动入库	无限制	近实时（分钟级）	日志文件定时扫描入库
Kafka Pipe	日志采集、实时指标、高并发流数据	TB/天级	秒级	App 行为日志实时写入
实时/离线同步任务	数据库（如 RDS/CDB）直连、生产环境持续集成	无限制	准实时/离线	MySQL → Lakehouse 全量/增量同步

总结建议：

对于几百兆的大宽表（如 3000+ 列），请放弃 Studio，首选 Volume 加载方案。
对于对象存储持续入库（文件不断产生），使用 对象存储 Pipe（LIST_PURGE 或 EVENT_NOTIFICATION 模式）。
对于生产级数据库同步，请迁移至 同步任务 或 Kafka Pipe。
Studio 导入仅作为补充方案用于小规模验证。

1.2 方案实施与最佳实践

方案一：Studio 数据导入 (小规模)

Studio 提供可视化的"上传数据"功能，底层采用同步调用机制。

⚠️ 关键限制：

文件大小：建议不超过 2 GiB。
列数限制：建议在 100–200 列以内。
- 注意 1：推断超时。当列数超过 1000 列时，Studio 在读取前 1000 行推断字段类型时会因超过 1 分钟超时时间而报错。
- 注意 2：大小写问题。Lakehouse 将表名和字段名统一存储为小写，导入时若源数据或代码中使用大写名称，两侧未做统一转换时会出现找不到列/表的问题。建议在导入前将表名和字段名统一转为小写。
- 注意 3：脏数据难定位。若某一行存在脏数据，Studio 可能会直接中断且提示不明。

方案二：从 Volume 加载数据 (大规模)

将文件上传至对象存储（OSS/S3/COS），通过 SQL 直接加载。

步骤 1：上传文件 使用

ossutil

ossutil

或其他工具将 CSV/Parquet 上传至 Volume 挂载的路径。

步骤 2：创建 View 或 Table

方式 A：创建视图 (View) — 适合快速查询，不移动数据

-- 通过 User Volume 查询 CSV 文件（不指定 Schema，自动推断） SELECT * FROM USER VOLUME USING CSV OPTIONS ('header' = 'true') FILES ('data.csv') LIMIT 5; -- 通过 User Volume 查询并指定 Schema（推荐，避免推断错误） SELECT * FROM USER VOLUME (col_1 STRING, col_2 STRING, col_3 INT) USING CSV OPTIONS ('header' = 'true') FILES ('data.csv') LIMIT 5; -- 创建视图封装查询逻辑 CREATE VIEW IF NOT EXISTS wide_table_view AS SELECT * FROM USER VOLUME (col_1 STRING, col_2 STRING, col_3 INT) USING CSV OPTIONS ('header' = 'true') FILES ('data.csv');

方式 B：创建物理表 (Table) — 适合长期存储和加速查询

-- 从 Volume 直接创建物理表（数据写入 Lakehouse 存储） CREATE TABLE IF NOT EXISTS wide_table_physical AS SELECT * FROM USER VOLUME (col_1 STRING, col_2 STRING, col_3 INT) USING CSV OPTIONS ('header' = 'true') FILES ('data.csv'); -- 或使用 COPY INTO（适合大数据量，支持错误处理） COPY INTO wide_table_physical FROM USER VOLUME USING CSV OPTIONS ('header' = 'true') FILES ('data.csv') ON_ERROR = 'CONTINUE';

Named Volume 语法：如果使用显式创建的 Named Volume，语法为

FROM VOLUME vol_name (...)

FROM VOLUME vol_name (...)

，例如：

SELECT * FROM VOLUME my_vol (id INT, name STRING) USING CSV OPTIONS ('header' = 'true') FILES ('data.csv');

方案三：对象存储 Pipe 持续导入

对象存储 Pipe 持续监听 OSS/S3/COS 中的新增文件，自动导入到 Lakehouse 表中。支持两种模式：

LIST_PURGE：定时扫描目录，导入后删除源文件（适合不需要保留原始文件的场景）
EVENT_NOTIFICATION：通过对象存储的事件通知触发导入（适合近实时场景）

-- 创建对象存储 Pipe（LIST_PURGE 模式） CREATE PIPE IF NOT EXISTS my_oss_pipe VIRTUAL_CLUSTER = 'DEFAULT' INGEST_MODE = 'LIST_PURGE' AS COPY INTO target_table FROM VOLUME my_oss_vol USING CSV OPTIONS ('header' = 'true') ON_ERROR = 'CONTINUE'; -- 创建对象存储 Pipe（EVENT_NOTIFICATION 模式，近实时） CREATE PIPE IF NOT EXISTS my_oss_pipe_realtime VIRTUAL_CLUSTER = 'DEFAULT' INGEST_MODE = 'EVENT_NOTIFICATION' AS COPY INTO target_table FROM VOLUME my_oss_vol USING PARQUET ON_ERROR = 'CONTINUE';

关键区别：

Volume 加载：手动执行一次
```
COPY INTO
```
COPY INTO
，适合历史数据批量入库
对象存储 Pipe：持续运行，自动检测新文件并导入，适合持续产生的数据文件

📖 详见：使用 Pipe 持续导入对象存储数据、Pipe 持续导入介绍

方案四：Kafka Pipe 实时导入

Kafka Pipe 支持秒级写入，适合高吞吐场景。

CREATE PIPE IF NOT EXISTS yishou_data.ods_sls_h5_log_dt_pipe VIRTUAL_CLUSTER = 'kafka_pipe' BATCH_INTERVAL_IN_SECONDS = '30' BATCH_SIZE_PER_KAFKA_PARTITION = '100000' AS COPY INTO yishou_data.ods_sls_h5_log_dt FROM ( SELECT json.`activity` AS activity, json.`data` AS data, date_format(cast(json.`__time__` AS TIMESTAMP), 'yyyyMMdd') AS dt FROM ( SELECT from_json( cast(value AS STRING), 'struct<`activity`:string, `data`:string, `__time__`:string>' ) AS json FROM read_kafka ( '1.4.4.8:9011,1.6.6.5:9011', -- Kafka 地址 'bigdata_sls_h5_log', -- Topic '', 'group_id_behavior_log', -- Consumer Group '', '', '', '', 'raw', 'raw', 0, MAP('kafka.security.protocol', 'PLAINTEXT') ) ) );

参数说明：

```
VIRTUAL_CLUSTER
```
VIRTUAL_CLUSTER
：指定执行 COPY 作业的计算集群（注意：Pipe 语法使用
```
VIRTUAL_CLUSTER
```
VIRTUAL_CLUSTER
，不是
```
VCLUSTER
```
VCLUSTER
）
```
BATCH_INTERVAL_IN_SECONDS
```
BATCH_INTERVAL_IN_SECONDS
：批处理间隔（秒），默认 60
```
BATCH_SIZE_PER_KAFKA_PARTITION
```
BATCH_SIZE_PER_KAFKA_PARTITION
：每个分区的批处理消息数，默认 500000

第二部分：核心对象性能调优指南

在生产环境中，Lakehouse 提供了丰富的参数（Flags/Properties）来调优性能。以下按组件分类，整理了高频使用的最佳实践与注意事项。

参数配置方式说明：

Session 级别：通过
```
SET 参数名 = 值;
```
SET 参数名 = 值;
配置，仅对当前会话生效
表级别：通过
```
ALTER TABLE ... SET PROPERTIES ('参数名' = '值');
```
ALTER TABLE ... SET PROPERTIES ('参数名' = '值');
配置，对表持久生效

2.1 Table 与存储优化

🚀 最佳实践

参数 / 属性	配置方式	推荐值 / 行为	说明
`cz.table.target.file.size` cz.table.target.file.size	Session	`134217728` 134217728 (128MB)	核心参数。控制目标文件大小，进而自动调整 DOP。建议替代旧版的 `output.file.max.size` output.file.max.size 。
`cz.compaction.strategy` cz.compaction.strategy	表属性	`dml` dml / `auto` auto	MV + DT 默认 dml。维度表应设置为 dml。若需禁用自动 Compaction，配置 `disable` disable 。
`data_lifecycle` data_lifecycle	表属性	`14` 14	控制数据保留天数，已产品化。
`cz.storage.parquet.json.storage.mode` cz.storage.parquet.json.storage.mode	Session	`jsonb` jsonb	不抽列。适合查询整个 JSON（如 `SELECT json_column` SELECT json_column ）。
`cz.storage.parquet.json.storage.mode` cz.storage.parquet.json.storage.mode	Session	`jsonb_extracted` jsonb_extracted	抽列（默认）。适合查询部分 JSON 列（如 `SELECT json_extract(...)` SELECT json_extract(...) ）。
`cz.common.json.build.jsonb.index` cz.common.json.build.jsonb.index	Session	`false` false	特定场景（如小红书）可设为 false 以提升写入性能。

配置示例：

-- Session 级别：设置目标文件大小为 128MB SET cz.table.target.file.size = 134217728; -- Session 级别：设置 JSON 存储模式为不抽列 SET cz.storage.parquet.json.storage.mode = 'jsonb'; -- 表级别：设置维度表的 Compaction 策略为 dml ALTER TABLE dim_users SET PROPERTIES ('cz.compaction.strategy' = 'dml'); -- 表级别：设置数据生命周期为 14 天 ALTER TABLE logs SET PROPERTIES ('data_lifecycle' = '14');

⚠️ 注意事项

Parquet Block Size：如果存在某一列特别大（如
```
exps_arr
```
exps_arr
），默认 Row Group 会很小，导致查询 IO 增加。可尝试调大
```
cz.storage.parquet.block.size
```
cz.storage.parquet.block.size
（如 2GB）。
File Slice Cache：如果 DT 上游表更新频繁，可能导致 Cache 版本太新而 Cache Miss。可配置
```
file_slice_cache_refresh_delay_sec='1800'
```
file_slice_cache_refresh_delay_sec='1800'
保留半小时前版本。

2.2 Dynamic Table (DT)

🚀 最佳实践

自动 Compaction：MV 和 DT 默认已带 Compaction，无需额外配置。
多 SQL 作业：对于大表，开启
```
cz.compaction.server.multi.sql.job='true'
```
cz.compaction.server.multi.sql.job='true'
可以拆分分区并发处理（视资源情况而定）。

⚠️ 常见问题

全局 Shuffle 阻塞 (严重)
- 现象：某个 DT 刷新生成了巨大复杂的增量 Plan，导致全局 EPH Shuffle 大量占用，线上其余增量任务性能衰退。
- 原因：未正确开启 Backfill 或未限制维度表范围。
- 对策：
  - Session 级别设置：
```
SET cz.optimizer.incremental.backfill.enabled = true;
```
    SET cz.optimizer.incremental.backfill.enabled = true;
  - 明确指定维度表：
```
SET cz.optimizer.incremental.dimension.tables = 'your_dim_table';
```
    SET cz.optimizer.incremental.dimension.tables = 'your_dim_table';
外表强制增量刷新 (反模式)
- 说明：理论上外表不支持增量计算。虽然可以通过
```
CREATE DT
```
  CREATE DT
  强制增量刷新，但产品行为不保证稳定性。
- 建议：对于外部数据源，请使用 Kafka Pipe 或者直接 全量刷新。

2.3 Pipe 调优（Kafka + 对象存储）

🚀 Kafka Pipe 最佳实践

Kafka Split 策略：默认按 Partition 切分。对于数据倾斜严重的 Topic，建议启用
```
size
```
size
策略：
- ```
SET cz.sql.split.kafka.strategy = 'size';
```
  SET cz.sql.split.kafka.strategy = 'size';
- ```
SET cz.mapper.kafka.message.size = '200000';
```
  SET cz.mapper.kafka.message.size = '200000';
  （按设置的大小调整 Split 数）

⚠️ Kafka Pipe 注意事项

Delta File Merge：对于 UBT 表，建议关闭 Delta 文件合并：
```
SET cz.sql.enable.dml.delta.file.merge = false;
```
SET cz.sql.enable.dml.delta.file.merge = false;
。一般只有分区表的 Merge Into 才需要开启。

🚀 对象存储 Pipe 最佳实践

LIST_PURGE 模式：适合文件产生频率不高、可以接受分钟级延迟的场景。Pipe 会定时扫描目录，导入后删除源文件。
EVENT_NOTIFICATION 模式：适合近实时场景（秒级~分钟级）。通过对象存储的事件通知（如 OSS 的 EventBridge）触发 Pipe 导入，无需轮询扫描。
文件格式选择：Parquet 格式比 CSV 导入性能更好（无需解析文本，直接读取列式数据）。

⚠️ 对象存储 Pipe 注意事项

Pipe 中的 COPY 语句不支持
FILES
FILES
、
REGEXP
REGEXP
、
SUBDIRECTORY
SUBDIRECTORY
参数：Pipe 会自动扫描 Volume 根目录下的所有文件，不能指定特定文件。
每个 Pipe 需对应独立的 Volume：不可复用同一个 Volume 给多个 Pipe，否则会导致文件冲突。
小文件问题：如果源端产生大量小文件，建议在 Pipe 的 COPY 语句中设置
```
cz.table.target.file.size
```
cz.table.target.file.size
控制输出文件大小。

📖 详见：使用 Pipe 持续导入对象存储数据、Pipe 持续导入介绍

2.4 Query 与 UDF 调优

⚠️ 注意：UDF 并发度过高

现象：UDF 切出了 4 万个 Task，性能巨差。
原因：参数阈值设置过小，导致不走自动 DOP。
- 错误配置示例：
```
SET cz.sql.dag.shuffle.vertex.manager.desired.task.input.size = 4194304;
```
  SET cz.sql.dag.shuffle.vertex.manager.desired.task.input.size = 4194304;
  （4MB 太小）
对策：根据数据量合理调整 Split Size 和 Skew Threshold，或直接依赖系统自适应。

关键查询 Flag 参考

```
cz.sql.stage.memory.mb
```
cz.sql.stage.memory.mb
：如果调大了文件大小或 Parquet Row Group 大小，务必对应调大 Task Memory（如
```
SET cz.sql.stage.memory.mb = 8192;
```
SET cz.sql.stage.memory.mb = 8192;
），否则极易 OOM。
```
cz.sql.enable.dag.auto.adaptive.split.size
```
cz.sql.enable.dag.auto.adaptive.split.size
：建议开启（
```
SET cz.sql.enable.dag.auto.adaptive.split.size = true;
```
SET cz.sql.enable.dag.auto.adaptive.split.size = true;
），让系统根据 Target File Size 自动调整 DOP。

第三部分：生产环境运维与诊断

3.1 慢查询诊断"三板斧"

遇到慢查询时，按以下三步快速定位问题：

第一步：看执行计划 (

EXPLAIN

EXPLAIN

)

-- 基础执行计划：快速识别执行方式 EXPLAIN SELECT * FROM large_table WHERE status = 'active'; -- 扩展执行计划：查看逻辑计划、物理计划、优化细节 EXPLAIN EXTENDED SELECT * FROM large_table WHERE status = 'active';

识别 Shuffle Join：执行计划中出现
```
PhysicalShuffleJoin
```
PhysicalShuffleJoin
表示大表 Join 大表，容易数据倾斜。
识别 Broadcast Join：执行计划中出现
```
PhysicalBroadcastJoin
```
PhysicalBroadcastJoin
表示小表广播到大表，是最佳实践。
识别全表扫描：检查是否有谓词下推（Predicate Pushdown）和分区裁剪。

📖 详见：EXPLAIN 命令

第二步：看作业状态 (

SHOW JOBS

SHOW JOBS

)

-- 查看最近 10 条作业 SHOW JOBS LIMIT 10; -- 查看执行时间超过 5 分钟的作业 SHOW JOBS WHERE execution_time > INTERVAL 5 MINUTE; -- 查看指定 VCluster 下的失败作业 SHOW JOBS IN VCLUSTER DEFAULT WHERE status = 'FAILED';

排队等待（
```
QUEUED
```
QUEUED
）：资源不足，作业在队列中等待。考虑扩容 VCluster 或调整作业优先级。
执行缓慢（
```
RUNNING
```
RUNNING
但耗时长）：SQL 或数据问题，进入第三步。

📖 详见：SHOW JOBS

第三步：查作业详情 (

DESC JOB

DESC JOB

)

-- 获取 job_id 后查看详细信息 DESC JOB '2026051922541032000079660';

```
execution_time
```
execution_time
：执行耗时（毫秒）
```
input_tables
```
input_tables
：输入表及其读取的行数和字节数
```
output_tables
```
output_tables
：输出结果的行数和字节数
```
vcluster_type
```
vcluster_type
：计算资源类型（
```
GENERAL
```
GENERAL
/
```
ANALYTICS
```
ANALYTICS
）

📖 详见：DESC JOB

3.2 小文件治理与 Compaction 实战

小文件是 Lakehouse 性能杀手。频繁的小批量 INSERT/UPDATE/DELETE 会产生大量小文件，增加元数据开销和查询 IO。

自动 Compaction

普通表和 Dynamic Table 默认开启自动 Compaction（
```
cz.compaction.strategy = 'dml'
```
cz.compaction.strategy = 'dml'
）
后台进程定期合并小文件，无需手动干预

手动 OPTIMIZE

当自动 Compaction 跟不上写入速度，或需要立即优化时：

-- 异步合并整张表的小文件（默认，不阻塞） OPTIMIZE my_table; -- 同步合并（阻塞，适合开发测试） OPTIMIZE my_table OPTIONS('cz.sql.optimize.table.async' = 'false'); -- 只合并指定分区 OPTIMIZE my_table WHERE dt = '2024-01-15';

⚠️ 注意：OPTIMIZE 只能在**通用型计算集群（GENERAL）**中运行，在分析型集群中不会生效。

诊断小文件严重程度

-- 查看表的文件数量和大小 DESC EXTENDED my_table;

如果文件数量远大于数据量（如 10GB 数据有 10000 个文件），说明小文件问题严重。

📖 详见：OPTIMIZE 命令

3.3 Dynamic Table 刷新优化专项

DT 刷新慢是用户最高频的投诉点。

查看刷新详情

-- 查看最近 10 次刷新记录 SHOW DYNAMIC TABLE REFRESH HISTORY WHERE name = 'dws_daily_orders' LIMIT 10;

关键字段解读：

```
refresh_mode
```
refresh_mode
：
```
INCREMENTAL
```
INCREMENTAL
（增量）/
```
FULL
```
FULL
（全量）/
```
NO_DATA
```
NO_DATA
（无变化）
```
state
```
state
：
```
SUCCEED
```
SUCCEED
/
```
FAILED
```
FAILED
/
```
RUNNING
```
RUNNING
```
stats
```
stats
：增量处理的行数（如
```
rows_inserted=1000:rows_deleted=50
```
rows_inserted=1000:rows_deleted=50
）
```
duration
```
duration
：刷新耗时

📖 详见：SHOW REFRESH HISTORY

如何判断 DT 是否在使用增量刷新？

-- 方法 1：查看刷新历史（事后确认） SHOW DYNAMIC TABLE REFRESH HISTORY WHERE name = 'my_dt' LIMIT 1; -- 方法 2：EXPLAIN 预览（事前确认，需开启开关） SET cz.optimizer.explain.can.incrementalize = true; EXPLAIN REFRESH DYNAMIC TABLE my_dt; -- 输出中 CanBeIncrementalized = Yes 表示支持增量

📖 详见：使用 Explain 查看动态表刷新模式

什么操作会导致 DT 降级为全量刷新？

修改源表 Schema（加列、删列、改列类型）
使用不支持增量的 SQL 算子（如
```
ORDER BY
```
ORDER BY
、
```
ROW_NUMBER()
```
ROW_NUMBER()
等窗口函数）
源表数据变更量过大（超过阈值自动降级）
分区 DT 的参数值发生变化

分区 DT 的威力

对于海量数据，使用

PARTITIONED BY

PARTITIONED BY

的 DT 可以将刷新范围缩小到单个分区，性能提升 10-100 倍：

-- 创建分区动态表 CREATE DYNAMIC TABLE dws_daily_orders (order_date, order_cnt, total_amount) PARTITIONED BY (order_date) REFRESH INTERVAL 1 HOUR VCLUSTER DEFAULT AS SELECT DATE(created_at) AS order_date, COUNT(*) AS order_cnt, SUM(amount) AS total_amount FROM ods_orders WHERE created_at >= SESSION_CONFIGS()['dt.args.order_date'] GROUP BY DATE(created_at); -- 只刷新指定分区（增量） SET dt.args.order_date = '2024-01-15'; REFRESH DYNAMIC TABLE dws_daily_orders PARTITION (order_date = '2024-01-15');

📖 详见：Dynamic Table 参数化定义、Dynamic Table 调度部署规范

3.4 成本优化清单（省钱指南）

VCluster 自动暂停

-- ETL 集群：空闲 60 秒后自动暂停 ALTER VCLUSTER etl_cluster SET AUTO_SUSPEND_IN_SECOND = 60; -- BI 查询集群：空闲 30 分钟后自动暂停（利用缓存加速） ALTER VCLUSTER bi_cluster SET AUTO_SUSPEND_IN_SECOND = 1800;

📖 详见：计算集群缓存

DT 刷新频率调优

不要盲目追求 1 分钟刷新，根据业务实际延迟容忍度调整：

场景	推荐刷新间隔	CRU 消耗
T+1 报表	`1 DAY` 1 DAY	最低
小时级指标	`1 HOUR` 1 HOUR	中等
分钟级看板	`10~30 MINUTE` 10~30 MINUTE	较高
秒级实时	不建议用 DT，改用实时同步任务	最高

冷热数据分层

利用

data_lifecycle

data_lifecycle

自动清理过期数据，结合 External Volume 将冷数据归档到 OSS 低频存储：

-- 设置数据生命周期为 90 天（90 天未更新的数据自动回收） ALTER TABLE logs SET PROPERTIES ('data_lifecycle' = '90'); -- 生命周期到期时删除表结构（节省元数据） ALTER TABLE temp_logs SET PROPERTIES ('data_lifecycle' = '7', 'data_lifecycle_delete_meta' = 'true');

📖 详见：数据生命周期

3.5 查询加速"黑科技"

Lakehouse 有一些默认开启但用户不知道如何利用的特性：

结果缓存 (Result Cache)

相同 SQL 秒级返回的条件：
- 底层表数据未发生变更
- SQL 语句完全匹配（包括大小写、空格）
- 不包含非确定性函数（如
```
CURRENT_TIMESTAMP()
```
  CURRENT_TIMESTAMP()
  、
```
RAND()
```
  RAND()
  ）
- 不包含视图引用
默认保留 24 小时，若被复用则延长 24 小时
可通过
```
SET cz.sql.enable.shortcut.result.cache = false;
```
SET cz.sql.enable.shortcut.result.cache = false;
关闭

📖 详见：了解和使用 Result Cache

元数据缓存 (Metadata Cache)

```
COUNT(*)
```
COUNT(*)
、
```
MAX()
```
MAX()
、
```
MIN()
```
MIN()
等聚合查询为何能毫秒级返回？
Lakehouse 为每张表维护元数据（行数、最大/最小值等），无需扫描数据文件即可返回结果。

计算集群本地缓存 (VC Cache)

主动缓存：通过
```
ALTER VCLUSTER ... SET PRELOAD_TABLES
```
ALTER VCLUSTER ... SET PRELOAD_TABLES
将热点表预加载到集群本地 SSD，BI 报表查询延迟降低 50%+
被动缓存：首次查询时自动将读取的文件缓存到本地，后续查询直接命中

-- 查看当前 VCluster 的预加载表状态 SHOW PRELOAD CACHED STATUS; -- 配置主动缓存（AP 型集群支持） ALTER VCLUSTER bi_cluster SET PRELOAD_TABLES = 'dws.daily_sales,dws.user_profile';

📖 详见：计算集群缓存

联系我们