云器与开源社区
云器在 GitHub 上的开源组织 github.com/clickzetta 维护了一系列开源项目,也持续向上游开源社区提交代码贡献。覆盖 AI Agent 工具、生态连接器、数据平台迁移实践和上游社区参与。这篇文档按类别汇总。
AI Agent 与命令行工具
云器 Lakehouse 官方 AI Agent 技能库,面向 Claude Code、Cursor、Kiro 等 AI 编程助手。将数据集成、数据建模、任务开发、运维治理等场景的最佳实践封装为可复用的模块。这是云器在 GitHub 上星标最高的项目。
AI Agent 友好的命令行工具,是 Agent 操作 Lakehouse 和 Studio 的主推接口。提供确定性命令接口,支持 Sub-Agent、CI/CD 和自动化场景。
通用增量计算技能库,面向 AI Agent 的增量数据处理场景。
云器 Lakehouse AI Agent,面向数据团队的专用 AI 编程助手。
cz-tool — 云器产品的命令行工具集。
goclickzetta — Go 语言 SDK,供 Go 应用接入 Lakehouse。
生态连接器与适配器
JDBC 压测工具,用于测试 Lakehouse 的 JDBC 连接性能和并发能力。
云器 Lakehouse 的 dbt adapter,支持在 dbt 项目中直接操作 Lakehouse 表、Dynamic Table、物化视图。
SQL 解析和转译工具(基于 sqlglot),用于不同 SQL 方言之间的语法转换。可用于迁移场景中自动转换 Snowflake、BigQuery、Databricks 等平台的特有 SQL 语法。
MindsDB 集成,在 Lakehouse 数据上直接进行 ML/LLM 建模和预测。
Metabase 的 Lakehouse 适配版本,开源 BI 工具的直接连接方案。
跨数据库表比对工具,可对比 Lakehouse 内或 Lakehouse 与其他数据库之间的表数据差异。
SQL 代码格式化工具,支持多种 SQL 方言。
迁移实战项目
云器维护了一系列开源迁移实战项目。每个项目包含完整的原始代码(源平台)和迁移后的 Lakehouse 代码,可直接 clone 运行。
从 Databricks 迁移
| 项目 | 说明 |
|---|---|
| databricks2lakehouse-bootcamp | Databricks Bootcamp → Lakehouse:14 个 notebook 的三条迁移路径(ZettaPark / SQL / Studio DAG) |
| databricks2lakehouse-jobs | Databricks Jobs → Studio 任务 DAG 迁移 |
| databricks2lakehouse-delta | Delta 表 → Lakehouse:External Catalog 联邦查询 + 全量迁移两条路径 |
| databricks2lakehouse-governance | Unity Catalog → Lakehouse 治理迁移(RBAC、列级脱敏) |
| databricks2lakehouse-dlt-apparel | Databricks DLT 管道迁移示例(服装零售 Medallion 架构) |
| dbt-databricks2lakehouse-blueprint | dbt + Databricks → Lakehouse 的数据管道迁移蓝图 |
从 Snowflake 迁移
| 项目 | 说明 |
|---|---|
| snowflake2lakehouse-data-engineering | Snowflake 数据工程工作流迁移 |
| snowflake2lakehouse-dynamic-tables | Snowflake Dynamic Tables → Lakehouse Dynamic Table 迁移(Bronze-Silver-Gold) |
| snowflake-dbt2lakehouse-dbt | Snowflake + dbt → Lakehouse + dbt 迁移 |
从其他平台迁移
| 项目 | 说明 |
|---|---|
| spark2lakehouse-formula1 | PySpark → ZettaPark:Formula 1 数据工程管道迁移 |
| spark2lakehouse-weblog | PySpark → ZettaPark:Web 日志处理迁移 |
| spark2lakehouse-medallion | Spark SQL → Lakehouse:Medallion 架构(Bronze/Silver/Gold)迁移 |
| spark2cz | Spark 到云器的 Scala 迁移工具 |
| bigquery2lakehouse-retail | BigQuery + Airflow + dbt → Lakehouse + Studio 迁移(零售数据管道) |
| hive2lakehouse-ecommerce-events | Hive → Lakehouse 迁移(电商点击流数据) |
| maxcompute2lakehouse-ecommerce | MaxCompute + DataWorks → Lakehouse + Studio 迁移(电商 ETL) |
| pandas2lakehouse-retail | pandas → ZettaPark 迁移(UCI Online Retail,RFM + 同期群分析) |
| jaffle-shop-clickzetta | dbt Jaffle Shop 沙盒项目,用虚构的三明治店数据探索 dbt + Lakehouse 工作流 |
上游社区贡献与参与
云器团队不只是维护自己的开源项目,也持续向上游社区提交代码修改和功能增强。以下是从公开 PR 记录中可追溯的社区贡献(均已被上游合并)。
核心基础设施
Apache Iceberg 是 Lakehouse 开放表格式的行业标准。云器是 Apache Iceberg C++ 版本的核心贡献者,深度参与了 Iceberg 的 C++ 客户端 SDK 开发(主要贡献者包括
wgtmac 等)。云器 Lakehouse 从 Day 1 即基于 Iceberg 构建——团队在 Iceberg 开源生态中有持续的代码投入。
AI 生态与 Agent
OpenClaw 是开源 AI 助手引擎(
openclaw 组织下维护 30+ 个配套工具)。SingClaw 基于 OpenClaw 内核构建,在记忆、安全、场景化与工作区上做了增强。
langgenius/dify & langgenius/dify-plugins
云器团队向 Dify(开源 LLM 应用开发平台)贡献了代码,涵盖 Lakehouse 相关的向量存储和文件存储集成。
Datus-ai(Datus-agent / datus-db-adapters)
云器团队向 Datus(数据工程智能体)提交了数据库适配器和 Agent 功能增强的代码。
通用 AI Agent 记忆层,云器团队参与维护和功能增强。
SQL 引擎与数据处理
云器团队向 SQLGlot(Python SQL 解析和转译引擎)提交了代码,用于增强多方言 SQL 的兼容性和转换能力(
clickzetta/sqlglot-clickzetta 基于此项目)。
云器团队向 Datafold 的跨数据库表比对工具贡献了代码(
clickzetta/data-diff-clickzetta 基于此项目)。
生态插件
langgenius/dify — 开源 LLM 应用开发平台
云器团队向 Dify 提交了多个已合并功能:ClickZetta Lakehouse 向量数据库集成(Vector DB integration)、ClickZetta 插件提交、多轮 workflow 知识检索缓存修复、向量库稳定性改进。这些工作使 Dify 用户可以将 CloudZetta Lakehouse 直接用作 RAG 应用的向量和全文检索引擎。
Datus-ai — 数据工程智能体
云器团队向 Datus 提交了多个已合并功能:ClickZetta 数据库类型支持、ClickZetta Adapter(实现 execute 方法和 CLI 兼容性)、通用 MCP 工具编排架构优化。同时维护了 ClickZetta 适配的 Datus agent 和 database adapters,使 Datus Agent 可以通过 MCP 协议操作 Lakehouse。
datafold/data-diff — 跨数据库表比对
云器团队向 data-diff 提交了 ClickZetta 引擎支持(
idling11:Add support for Clickzetta engine),使 data-diff 可以在 Lakehouse 表与其他数据库表之间做数据一致性校验。
其他
下一代自动化数据探索和可视化平台,云器团队参与维护 Lakehouse 适配版本。
基于 Streamlit 的 Lakehouse SQL 监控看板。
SQL 回放工具,用于在生产环境复现和对比查询行为。
