性能基准测试
本页收录了云器 Lakehouse 与同类数据处理系统的基准测试报告,覆盖 SSB、TPC-H、TPC-DS 三个行业标准测试集。对比对象涵盖列式数据库(ClickHouse)、分布式查询引擎(Trino)和大数据计算引擎(Spark SQL),测试目的是在相同数据规模和可比算力下,提供客观的查询性能参考数据。
测试汇总
| 测试标准 | 对比对象 | 数据规模 | 查询数量 | 结论 |
|---|---|---|---|---|
| SSB | ClickHouse 23.3 | 100 GB | 13 个查询 | ClickHouse 总耗时是云器 Lakehouse 的 1.48 倍 |
| TPC-H | Trino 422 | 100 GB | 22 个查询 | Trino 总耗时是云器 Lakehouse 的 9.84 倍 |
| TPC-DS | Spark SQL 3.4.2 | 10 TB | 103 个查询 | Spark 总耗时是云器 Lakehouse 的 9.51 倍 |
SSB 基准测试
Star Schema Benchmark(SSB)基于 TPC-H 的星型模型数据集,ClickHouse 官方将其打平为单宽表,用于测试单表大规模扫描和聚合查询的性能。本次测试在 100 GB 数据规模下执行 13 个查询,云器 Lakehouse 使用 Large 规格计算集群(64 vCPU 等效算力),与 ClickHouse 使用相同的 LZ4 压缩方式。
在 Q1 系列(高选择率过滤)上 ClickHouse 略快,在 Q2–Q4 系列(多维聚合)上云器 Lakehouse 有明显优势,13 个查询总耗时云器 Lakehouse 更低。
TPC-H 基准测试
TPC-H 是事务处理性能委员会(TPC)发布的决策支持基准测试,包含 8 张表、22 个即席查询,覆盖子查询、多表 JOIN、聚合等典型分析场景。本次测试在 100 GB 数据规模下与 Trino 对比,云器 Lakehouse 使用 XLarge 规格计算集群(128 vCPU 等效算力),双方使用相同的 Parquet + LZ4 存储格式和分桶排序设置。
22 个查询中云器 Lakehouse 全部优于 Trino,部分查询(Q6、Q14、Q17)性能差距超过 25 倍。
TPC-DS 基准测试
TPC-DS 是比 TPC-H 更接近真实数仓场景的基准测试,包含 24 张表,覆盖分析报告、交互查询、数据挖掘等复杂场景。本次测试在 10 TB 数据规模下与 Spark SQL 对比,云器 Lakehouse 使用 XLarge 规格计算集群(128 vCPU 等效算力),选取 103 个复杂查询,以首次执行时间为准(不预热)。
云器 Lakehouse 对长耗时作业的提升尤为显著,部分查询(query16、query82)性能差距超过 45 倍。
