组织层级

云器 Lakehouse 采用四层组织结构管理资源和数据:服务实例 → Catalog → Schema → 数据对象。

服务实例(Instance) ├── 工作空间(Workspace) ← 内部 Catalog,资源隔离单元 │ ├── Schema ← 命名空间,组织表/视图/函数 │ │ └── 表、视图、函数等 │ └── External Schema ← 映射外部 Hive 数据源的特殊 Schema └── External Catalog ← 外部数据目录,联邦查询入口 └── External Schema └── External Table

各层级说明

层级说明参考文档
服务实例(Instance)最顶层资源单元,对应一个云器 Lakehouse 实例,跨工作空间共享实例级配置管理服务实例
工作空间(Workspace)实例下的资源隔离单元,本质是内部 Catalog。包含独立的用户、权限、计算集群和数据对象,不同工作空间默认互不可见工作空间
External Catalog与工作空间平级的外部数据目录,映射 Hive、Databricks、Snowflake 等外部数据系统,用于联邦查询External Catalog
Schema工作空间下的命名空间,按业务域或数据层次组织数据对象(如
ods
ods
dwd
dwd
ads
ads
Schema
External Schema工作空间下映射外部 Hive 数据源的特殊 Schema,无需迁移数据即可直接查询External Schema

选型建议

什么时候建多个工作空间

  • 开发/测试/生产环境隔离
  • 不同业务团队需要独立的权限和计算资源
  • 需要独立计费的业务单元

什么时候建多个 Schema

  • 同一团队内按数据层次划分(ODS / DWD / ADS)
  • 同一工作空间内按业务域划分(订单、用户、商品)
  • 需要对不同数据集合做整体授权

什么时候用 External Catalog vs External Schema

场景推荐
查询 Hive、Databricks、Snowflake 等外部系统External Catalog
将外部 Hive 数据库挂载到当前工作空间,用
schema.table
schema.table
直接引用
External Schema
需要跨平台联邦查询,数据不迁移External Catalog

数据湖原地加速:数据保留在原有对象存储(OSS/COS/S3/HDFS)中,通过 External Catalog 或 External Schema 接入 Lakehouse,直接用 Lakehouse 替代 Spark/Hive 做 ETL 加工,或替代 Presto/Trino 做 Ad hoc 查询——无需数据迁移,即可获得 Lakehouse 的性能和 SQL 能力。

相关文档

联系我们
预约咨询
微信咨询
电话咨询