云器 Lakehouse 产品介绍

云器 Lakehouse 是一款全托管的云原生湖仓一体数据平台，搭载全新设计的向量化 SQL 计算引擎，在 TPCDS 10TB、TPCH 100GB、SSB 100GB 标准测试集上领先业界主流产品。平台自研通用增量计算模型（GIC），将批处理与流处理统一为同一套增量计算范式——用标准 SQL 定义的 Dynamic Table 自动感知上游变化并增量刷新。

湖仓一体解决了数据存储和加工的割裂，但没有解决 AI 时代的新问题：向量库、LLM 调用、非结构化数据处理游离在数据平台之外，AI 团队和数据团队用两套工具处理同一份数据。云器将这个方向定义为 AI Lakehouse——GIC 驱动的增量刷新让 AI 处理结果能实时回流到数据加工链路，而不是停留在外挂系统里；AI 能力作为数据平台的内生能力，与数据加工流程在同一个平台内完成。

平台以 SaaS 形式交付，目前在阿里云（华东上海）、腾讯云（华东上海、华北北京、华南广州）、亚马逊云（北京）等提供服务，按需开通，无需管理任何基础设施。详见支持的云平台与地域。

架构概览

过去几年，数据平台服务的对象只有两类：人（数据分析师、工程师通过 Studio 操作）和应用（业务系统通过 JDBC/API 取数）。这个假设正在被打破。

随着 ChatGPT、Claude、Cursor、Codex 等 AI 编程工具的普及，越来越多的企业开始让 AI Agent 直接参与数据工作——自动生成 ETL 任务、分析数据质量、诊断慢查询、回答业务问题。这不是未来趋势，而是正在发生的现实。

但 AI Agent 参与数据工作，和人参与有本质区别：人可以看 UI、读文档、凭经验判断；Agent 只能通过程序接口操作，它不知道"GMV"是哪张表的哪个字段，它不能接受"数据是昨天的"，它的并发请求可以在秒级涌入数百个。这不是给旧平台加一个 CLI 工具就能解决的问题——它要求数据平台在四个层面重新设计：

可程序化的接口：传统平台的 Web UI 是为人设计的，Agent 操作它就像让人去点击截图——低效且不可靠。云器为 AI Agent 提供了 cz-cli：确定性的命令格式、结构化的输出、完整的数仓操作覆盖，让 Codex、Claude Code、Cursor、Kiro 等工具可以完成建表、写 SQL、提交任务、查看日志的完整工作流。
实时的数据：Agent 执行任务时需要的是当前状态——库存是否充足、订单是否已支付。如果数据是昨天的批处理快照，Agent 的决策就建立在过期信息上，结果不可信。GIC 驱动的 Dynamic Table 让整条数仓加工链路分钟级刷新，Agent 查到的是当前状态，不是昨天的快照。
可理解的语义：Agent 面对裸表结构只能猜测字段含义，"order_amt"是含税还是不含税？"active_user"的口径是什么？语义视图在物理表之上建立业务语义层，Agent 通过语义视图理解"GMV"、"活跃用户"这类业务概念，生成的 SQL 口径准确。
可弹性扩展的计算：人工访问数据平台的并发是有限的，但 AI Agent 可以同时发起数十甚至数百个并发查询。存算分离下，分析型集群支持按并发负载自动横向扩展，并发压力消退后自动缩回，扩容延迟以秒计，不影响在线业务。

今天，云器 Lakehouse 服务三类用户，每一类都是同等重要的第一方：

Human：通过 Studio Web 界面操作，覆盖数据开发、调度、分析 Notebook 和 Data Analytics Agent（Analytics Agent）对话问数
App：通过 JDBC、Python SDK、MySQL 协议、REST API 接入，将 Lakehouse 作为应用的数据后端
AI Agent：通过 cz-cli 接入，自主完成数仓开发、运维和数据消费

除了通过

cz-cli

cz-cli

接入的外部 AI Agent，云器还提供两类内置 Data Agent：

Data Engineering Agent：面向数据工程生产流程，重点解决任务开发、调度发布、运行监控、质量治理和工程排障。
Data Analytics Agent（Analytics Agent）：面向分析消费和语义治理，重点解决分析域配置、指标语义、自然语言问数和分析结果消费。

两者不是重复关系，而是上下游关系：前者把数据工程链路建设出来并运行起来，后者把这些数据资产进一步转成可提问、可分析、可消费的业务分析能力。

纵向来看，数据从最底层的对象存储持久化，经过元数据和联邦层统一管理，在数据对象层中被组织为各类表和管道，由 SQL 计算引擎驱动加工，最终通过接入层暴露给三类用户。

下面三节解释云器在存储、计算、数据新鲜度上的底层架构选择；程序化接口、语义能力、多模态存储等 AI 层能力在 AI Lakehouse 一节展开。

技术基础

湖仓一体

大多数企业的数据架构都面临同一个困境：原始数据存在数据湖（低成本、格式灵活，但查询慢、治理弱），加工后的数据存在数据仓库（高性能、治理完善，但成本高、格式封闭）。两套系统意味着两套存储、两套权限、两套元数据，以及永无止境的数据同步管道——数据从湖搬到仓，再从仓搬回湖，延迟和出错是家常便饭。AI 应用的普及让割裂更加严重：BI 消费数仓里的结构化数据，AI 应用需要数据湖里的原始文件，同一份业务数据要维护两个副本。

云器 Lakehouse 将结构化表、半结构化数据和非结构化文件统一在同一平台：共享同一套 SQL 引擎、元数据服务和权限体系。数据只需存一份，BI 和 AI 从同一张表取数。SQL 计算引擎搭载自研的通用增量计算模型（GIC），将批处理与流处理统一为同一套增量计算范式，Dynamic Table 自动感知上游变化并增量刷新。

GIC 是 Dynamic Table 的底层驱动引擎。传统增量计算方案遇到 JOIN、嵌套子查询、UPDATE/DELETE 就退化为全量重算；GIC 将任意标准 SQL 分解为算子级别的增量计划，Filter、Join、Aggregate、Window 均支持增量执行。GIC 具备三个核心特性：通用性（不限制查询复杂度）、代价感知（每次刷新动态选择增量或全量执行计划，增量数据量过大时自动回退全量）、语义一致性（基于 MVCC 版本管理，增量结果与全量重算严格一致，保证 Exactly-Once 语义）。

存储层构建在 Apache Iceberg 之上。云器工程师是 Apache Iceberg C++ 实现（iceberg-cpp）的第一贡献者，主导了这个官方 C++ 库从零到可用的核心开发。云器工程师担任 Apache Iceberg Committer，同时是 Apache Arrow、Apache ORC、Apache Parquet 三个项目的 PMC 成员。云器 Lakehouse 是业界最早完整支持 Iceberg V3（Deletion Vectors、Row Lineage、VARIANT 类型）的湖仓产品之一。Deletion Vectors 大幅降低 UPDATE/DELETE 密集场景（如 CDC 写入、GDPR 删除）的写放大，不再需要重写整个数据文件；Row Lineage 让每行数据的来源可追溯，支持细粒度审计；VARIANT 类型原生支持半结构化数据，无需预定义 Schema 即可查询嵌套 JSON。

对你意味着什么：BI 报表和 AI 应用不再各自维护一份数据副本——两者从同一张表取数，权限和元数据在同一套体系里管理。Hive、Delta Lake、Hudi 里的历史数据通过外部表直接可查，现有数据资产不需要搬迁就能接入新平台。一条 SQL 可以同时处理对象存储里的原始文件和加工好的宽表，BI 和 AI 的数据口径第一次真正对齐。

存算分离

传统数仓存算一体：存储和计算绑定在同一批机器上，ETL、BI 查询、AI 推理共用同一套资源——一个大作业跑满 CPU，其他查询全部排队；扩容计算时存储也必须同步扩容，成本浪费无法避免。

云器 Lakehouse 将数据持久化到对象存储（OSS / S3 / COS），计算由独立的 VCluster 承担，两者完全解耦。数据只有一份，计算可以有任意多个——多个 VCluster 同时读写同一份数据，互不干扰，各自独立扩缩、独立计费。没有查询时计算集群暂停停止计费，但数据始终在线，随时可查。

计算层按负载类型拆分为三种集群。GP 和 AP 的扩缩方式不同，原因在于工作负载特征不同：ETL 批处理单任务资源需求大但并发少，纵向扩容（加大单节点）更有效；BI 查询单任务资源需求小但并发高，横向扩容（增加实例）才能线性提升吞吐。

通用型（GP）：ETL 批处理、Dynamic Table 增量刷新、AI_COMPLETE / Embedding 等 AI 计算任务。作业资源共享公平调度，支持纵向弹性扩缩容
分析型（AP）：BI 报表、Ad-hoc 查询、高并发在线分析，以及对延迟敏感的 AI 推理场景。作业独占资源，支持多实例横向扩缩容，内置结果缓存加速
同步型（Integration）：离线批量同步和 CDC 实时同步共用一个集群，与查询流量完全隔离

AI Agent 的普及对弹性扩展提出了更高的要求。AI Agent 可以同时发起数十甚至数百个并发查询，并发规模远超人工操作的上限。存算分离下，分析型集群支持按并发负载自动横向扩展实例，并发压力消退后自动缩回，扩容延迟以秒计，整个过程不涉及任何数据迁移。

对你意味着什么：计算和存储独立计费、独立扩缩：业务数据量增长时只需扩容计算，查询低峰期计算集群暂停停止计费，数据始终在线。跑批任务和 BI 查询用各自独立的集群，互不抢占资源，不会出现一个大作业把所有查询压垮的情况。当 AI Agent 开始并发访问数据平台，分析型集群自动横向扩展应对峰值，压力消退后自动缩回——整个过程不涉及人工介入，也不需要迁移任何数据。

实时离线一体

传统数据架构里，实时链路用 Flink、离线链路用 Spark，两套代码、两套运维，同一个业务指标要在两个地方各写一遍逻辑，结果还经常对不上。更根本的问题是：即使 ODS 层接了实时 CDC，下游 DWD、DWS 仍然是 T+1 批处理——整条链路的新鲜度由最慢的那个节点决定。AI Agent 执行任务时需要的是当前状态，隔夜的批处理快照会让 Agent 的决策建立在过期信息上。

云器 Lakehouse 用 Dynamic Table 让整条加工链路都能增量刷新。大多数增量计算方案遇到 JOIN、UPDATE/DELETE 就退化为全量重算；GIC 的设计目标是通用性——将任意 SQL 的执行分解为算子级别的增量计划，Filter、Join、Aggregate、Window 均支持增量执行，每个算子只处理上游变化的部分。Dynamic Table 定义一条 SQL，GIC 自动感知上游表的变化，只计算增量部分并刷新结果。ODS → DWD → DWS → ADS，每一层都是 Dynamic Table，每一层都在上游刷新后自动触发，端到端新鲜度以分钟计。无论上游是定时批量写入还是 CDC 实时流入，下游处理逻辑完全一致，一套代码覆盖两种场景。

传统全量重跑的成本与总数据量成正比；Dynamic Table 只处理上次刷新后的增量，刷新耗时与变化量成正比，分钟级刷新的成本与全量重跑不在同一个量级。GIC 不静态绑定增量计划，而是每次刷新时根据数据统计信息动态选择执行方式——增量数据量过大时自动回退全量，成本永远最优，不需要人工干预。

Dynamic Table 支持三种调度模式，同一份 SQL 无需修改即可切换：实时触发（上游数据变更立即计算，秒级延迟，适合风控和监控）、周期调度（按分钟/小时间隔批量处理，适合大多数近实时场景）、DAG 依赖触发（上游 Dynamic Table 刷新完成后自动触发下游，只需配置叶子节点，整条链路自动串联）。

对你意味着什么：你可以用 1 套云器 Lakehouse 替换了 Kafka + Spark Streaming + ClickHouse 5 个组件的组合，大幅降低存储与计算成本，以及运维复杂度。数仓分层逻辑写一次，批量和实时复用同一套，不需要在两套系统里各维护一份逻辑、两边数字经常对不上。Dynamic Table 分钟级刷新让整条加工链路数据新鲜度同步提升——AI Agent 查到的是当前业务状态，而不是昨天的批处理快照。

AI Lakehouse

三个技术基础解决了数据平台自身的问题，但还有一个更大的割裂没有解决：数据平台和 AI 系统之间的割裂。数据要在两个系统之间反复搬运，向量库和数据仓库各自维护一套权限和元数据，AI 处理的结果无法直接回流到数据加工链路。

云器 AI Lakehouse 的回答是：不是在数据平台旁边搭一套 AI 系统，而是让 AI 能力成为数据平台的内生能力。AI 能力覆盖四个层面：

一、统一模型底座

AI Gateway 是企业统一的 LLM 接入点——一个 Endpoint、一个 Key，即可调用 20+ 厂商的模型，兼容 OpenAI 和 Anthropic 接口，支持智能路由、BYOK（账单直走供应商）和按 Key/团队/项目的用量管控。下面所有 AI 能力共用同一套模型治理机制：RBAC 权限隔离、调用限流、Token 用量统计和多租户成本分账。

二、Lakehouse 内的 AI 与语义能力

AI Functions 把大模型能力下沉进 SQL 引擎，数据不出平台、无需写 Python，用一句 SQL 即可完成翻译、情感分析、分类、信息抽取、PII 脱敏、向量化与多模态（图像/音频）处理。对 Volume 中的非结构化数据（合同、图片、工单）同样适用，结果直接写入 Lakehouse 表，供 BI 和 AI 同源消费。

同一张表原生支持标量、文本、向量三种数据类型和对应索引，一条 SQL 可以同时过滤标量、全文检索、语义召回，不需要单独维护 Elasticsearch 或向量数据库。详见全文检索与向量混合搜索最佳实践。

语义视图（Semantic View） 在物理表与业务分析之间建立语义抽象层，集中定义表关系、维度与指标，从根本上解决「同一指标、不同结果」的口径不一致问题。它同时也是 AI Agent 能稳定、准确问答的语义基础——Agent 通过语义视图理解"活跃用户"、"GMV"这类业务概念，而不是面对裸表结构猜测字段含义。

三、面向不同人群的 Agent

Data Analytics Agent 面向业务用户。其价值不止于"自然语言查数"，更在于背后已就绪的分析域隔离、统一口径、行级权限与审计——让大模型在受控的企业上下文中给出可信结果，而非自由访问全部数据。

Data Engineering Agent 面向数据工程师。覆盖开发、调度、发布、运维、诊断全链路。它不是聊天式 SQL 生成器，而是遵循「先探索、再收敛、后执行」的工作方式，并对变更类、高影响操作内置确认与影响范围检查的安全边界。

SingClaw 面向业务主（尤其电商与一人公司）的桌面端、有记忆的主动式数据 Agent。接入数据后无需搭建看板，它会主动读数并每天推送「业务简报」，直接告诉你哪里出了问题、为什么、今天第一件该做什么。基于 OpenClaw 内核，在记忆、安全、场景化与工作区上做了增强。

四、让 AI Agent 接入 Lakehouse 的两条通道

cz-cli 是专为 Agent 时代设计的命令行入口和 Sub-Agent。相比 JDBC（需注入海量 schema）、MCP（工具描述占用大量上下文）、REST（需多步拼接），cz-cli 自描述可发现、一条命令对应一个完整业务动作、上下文开销极低，并支持作为独立子 Agent 处理复杂数据任务。Claude Code、Cursor、Kiro 等 AI 编程工具通过 cz-cli 可以完成完整的数仓开发和运维工作流。

MCP Server（Studio 托管版） 零部署即可接入。无需自建服务进程，仅创建 Token 即可让 Claude Desktop、Cherry Studio 等通用 AI 客户端直接操作 Lakehouse 的数据、任务与运维能力，深度接入 Studio 实际工作流（含 CDC、数据质量、组合任务等）。

整体价值：数据只存一份，BI 报表和 AI 应用从同一张表取数，权限和元数据统一管理；AI 处理结果经 GIC 增量刷新实时回流到数据加工链路；从数据集成、加工、AI 处理到分析消费，全链路在一个平台内闭环，数据团队无需切换工具、维护多套系统。

Lakehouse Studio

云器从产品设计之初就选择了一体化路径——把数据开发的完整生命周期纳入同一个平台，让接入、开发、调度、运维、治理共享同一套元数据和权限体系。Studio 与计算引擎同步构建，不是引擎之外的附加模块。

Studio 的主要模块：

数据同步：40+ 数据源的离线批量同步和 CDC 实时同步，可视化配置，无需写代码
任务开发与调度：SQL / Python / Shell 任务统一管理，DAG 依赖编排，支持补数、重跑
运维监控：实例日志、运行告警、资源用量，问题定位不用跳出平台
数据目录：元数据管理、数据血缘、数据质量规则，治理和开发在同一入口
分析 Notebook：交互式 SQL 和 Python 分析，结果可直接接 BI

快速上手：Lakehouse Studio 入门指南

核心对象关系

数据对象之间的关系：

Dynamic Table：定义一条 SQL，系统自动感知上游表变化并增量刷新，适合构建 ODS→DWD→ADS 数据管道。不依赖 Table Stream。
Table Stream：独立的 CDC 捕获机制，记录每一行的增删改变化供下游自定义消费，适合需要精细控制 MERGE 逻辑的场景。
两者都从 Table 出发，是并行的两条路径，根据场景选一条即可。

Dynamic Table 的增量计算由云器自研的 GIC（Generic Incremental Computation）模型驱动，支持秒级触发、分钟级周期、DAG 依赖三种调度模式，用标准 SQL 定义，无需学习流处理框架。详见增量计算机制与动态表。

典型使用场景

企业知识库与 RAG 系统

将合同、研报、工单、产品手册等非结构化文档存入 Volume，用

AI_EMBEDDING()

AI_EMBEDDING()

批量向量化后写入同一张表，同时建立倒排索引支持关键词精确匹配。检索时一条 SQL 同时召回语义相似内容（向量索引）和专有名词精确匹配（倒排索引），用 RRF 算法融合排序，再调用

AI_COMPLETE()

AI_COMPLETE()

生成答案。整个 RAG 管道在 Lakehouse 内闭环，不需要单独维护向量数据库和 Elasticsearch。

参考：全文检索与向量混合搜索最佳实践

AI 应用的实时数据后端

AI 应用在执行任务时依赖实时业务状态：库存是否充足、订单是否已支付、用户画像是否更新。用 CDC 实时同步将业务库变更写入 Lakehouse，Dynamic Table 分钟级刷新 DWD/DWS 层，语义视图统一定义指标口径。AI 应用通过 REST API 或 JDBC 查询语义视图，拿到的是业务语言可读、数据新鲜度在分钟级的准确结果，而不是隔夜的批处理快照。

参考：语义视图

AI Agent 驱动的自主数据工程

用 Claude Code、Cursor 或 Codex 等 AI 编程工具，通过 cz-cli 直接操作 Lakehouse：描述需求，由 Agent 协助完成建表、编写 ETL SQL、提交调度任务、查看运行日志、定位性能瓶颈。具体能否直接执行变更，取决于当前权限、工具开放范围和确认流程。数仓开发正逐步从"人写代码"转向"人描述目标，Agent 协助执行"。

参考：cz-cli 配置指南

替换 Spark 或传统大数据架构

将现有 Spark ETL 作业迁移到 Lakehouse，用 Dynamic Table 替代 Spark Streaming，用 SQL 任务替代 PySpark 脚本。无需维护 Spark 集群，计算按需付费，大幅降低综合成本。

参考：Spark SQL 迁移指南

实时数据平台

通过多表实时同步（CDC）将业务库变更实时写入 Lakehouse，用 Dynamic Table 构建 ODS→DWD→ADS 分层数据管道，分钟级刷新，替代 Flink + 数据仓库的双链路 Lambda 架构。

参考：实时数据管道选型指南

车联网 / IoT 数据平台

海量设备数据通过 Kafka 持续写入，Dynamic Table 实时聚合设备状态和告警指标，分析型集群支持高并发在线查询，一套架构覆盖实时接入、加工和分析全链路。设备异常数据通过 AI Functions 做模式识别，结果写回结构化表供运维 Agent 实时消费。

生态兼容

云器 Lakehouse 原生兼容 Apache Iceberg 格式，支持以外部表方式直接读写 Delta Lake、Hudi、Paimon，现有数据湖资产无需迁移即可接入。计算生态方面，提供 Spark Connector、Flink Connector，现有大数据链路可平滑对接。BI 工具方面，帆软、Tableau、Superset、Metabase、PowerBI 均已完成集成认证。

关于名称

文档中你会看到两个名称交替出现：云器和 ClickZetta。两者指向同一个产品，使用场景不同：

云器 — 产品品牌名称，用于控制台界面、技术支持和新版文档中
ClickZetta — 云器在开源社区的注册品牌，用于 GitHub 组织（
```
github.com/clickzetta
```
github.com/clickzetta
）、PyPI 包名（
```
dbt-clickzetta
```
dbt-clickzetta
）、JDBC 驱动类名（
```
com.clickzetta.client.jdbc.ClickZettaDriver
```
com.clickzetta.client.jdbc.ClickZettaDriver
）等技术标识。部分旧版文档和历史博客中也会出现

读文档时如果遇到 "ClickZetta Lakehouse"，把它理解为"云器 Lakehouse"即可。

从这里出发

你的目标	推荐起点
了解平台所有概念的定义	基本概念
动手操作第一个完整流程	快速入门
了解 AI Lakehouse 全景	AI Lakehouse
搭建 RAG 或向量检索	全文检索与向量混合搜索最佳实践
了解 AI 数据分析能力	Data Analytics Agent 快速导览
让 AI Agent 操作数仓	cz-cli 配置指南
学习常用 SQL 命令	SQL 参考
设计数据模型和对象关系	对象模型设计

联系我们