组织层级
云器 Lakehouse 采用四层组织结构管理资源和数据:服务实例 → Catalog → Schema → 数据对象。

各层级说明
| 层级 | 说明 | 参考文档 |
|---|---|---|
| 服务实例(Instance) | 最顶层资源单元,对应一个云器 Lakehouse 实例,跨工作空间共享实例级配置 | 管理服务实例 |
| 工作空间(Workspace) | 实例下的资源隔离单元,本质是内部 Catalog。包含独立的用户、权限、计算集群和数据对象,不同工作空间默认互不可见 | 工作空间 |
| External Catalog | 与工作空间平级的外部数据目录,映射 Hive、Databricks、Snowflake 等外部数据系统,用于联邦查询 | External Catalog |
| Schema | 工作空间下的命名空间,按业务域或数据层次组织数据对象(如 、、) | Schema |
| External Schema | 工作空间下映射外部 Hive 数据源的特殊 Schema,无需迁移数据即可直接查询 | External Schema |
选型建议
什么时候建多个工作空间:
- 开发/测试/生产环境隔离
- 不同业务团队需要独立的权限和计算资源
- 需要独立计费的业务单元
什么时候建多个 Schema:
- 同一团队内按数据层次划分(ODS / DWD / ADS)
- 同一工作空间内按业务域划分(订单、用户、商品)
- 需要对不同数据集合做整体授权
什么时候用 External Catalog vs External Schema:
| 场景 | 推荐 |
|---|---|
| 查询 Hive、Databricks、Snowflake 等外部系统 | External Catalog |
将外部 Hive 数据库挂载到当前工作空间,用 直接引用 | External Schema |
| 需要跨平台联邦查询,数据不迁移 | External Catalog |
数据湖原地加速:数据保留在原有对象存储(OSS/COS/S3/HDFS)中,通过 External Catalog 或 External Schema 接入 Lakehouse,直接用 Lakehouse 替代 Spark/Hive 做 ETL 加工,或替代 Presto/Trino 做 Ad hoc 查询——无需数据迁移,即可获得 Lakehouse 的性能和 SQL 能力。
相关文档
- 工作空间 — 创建、管理成员、角色配置
- Schema — 创建、切换、跨 Schema 引用
- External Catalog — 联邦查询外部数据系统
- External Schema — 映射外部 Hive 数据源
- 湖上原地加速方案实施指南 — POC 快速验证,不搬数据替换 Spark/Hive 和 Presto/Trino
联系我们
