Bloomfilter Index
Bloomfilter Index 是 Lakehouse 的等值过滤加速索引,通过在数据文件级别记录列值的存在性,让查询引擎在扫描前快速跳过不包含目标值的文件,减少 I/O。
工作原理
Bloomfilter 是一种概率数据结构,能快速判断"某个值是否可能存在于某个数据块中":
- 不存在:100% 准确,直接跳过该数据块
- 可能存在:需要实际读取验证(存在极低概率的误判)
适用场景
| 场景 | 效果 |
|---|---|
高基数列的等值过滤(如 ) | 显著减少扫描文件数 |
| 点查询(按 ID 查单条记录) | 大幅提升查询速度 |
范围查询(、、) | 无效,不适合 |
| 低基数列(如性别、状态) | 效果有限,不推荐 |
创建示例
相关文档
- Bloomfilter Index 详细说明
- 索引使用最佳实践
- 倒排索引 — 全文检索场景
联系我们
