AI 的数据准备
云器 Lakehouse 将向量检索、全文搜索和结构化数据分析统一在同一平台,让 AI 应用直接在数据所在的地方完成检索和计算,无需将数据搬到外部向量数据库或搜索引擎。
选型指南
| 我需要做的事 | 推荐方案 |
|---|
| 语义相似度搜索、RAG 召回、图像检索 | 向量检索 |
| 关键词搜索、日志检索、中文分词搜索 | 全文检索 |
| 向量 + 关键词混合检索,提升召回质量 | 混合检索(RRF) |
| 向量检索 + 结构化过滤(如时间范围、分类标签)同一张表 | 多模数据检索 |
核心能力
向量检索
在表上创建向量索引(HNSW),支持近似最近邻(ANN)检索。适合语义搜索、知识库问答、图像相似度等场景。
-- 创建含向量列的表
CREATE TABLE docs (
id BIGINT,
content STRING,
embedding VECTOR(1536)
);
-- 创建向量索引
CREATE VECTOR INDEX idx_vec ON TABLE docs (embedding)
PROPERTIES ("scalar.type" = "f32", "distance.function" = "cosine_distance");
-- 语义搜索:找最相近的 5 条文档
-- endpoint:my_embedding 是你在 AI Gateway 配置的 Embedding 端点名
SELECT id, content
FROM docs
ORDER BY cosine_distance(embedding, AI_EMBEDDING('endpoint:my_embedding', '用户的问题')) ASC
LIMIT 5;
→ 向量检索完整指南
全文检索
基于倒排索引,支持中英文分词、BM25 相关性排序、短语匹配。适合文档搜索、日志检索、评论分析等场景。
-- 创建倒排索引
CREATE INVERTED INDEX idx_content ON TABLE docs (content)
PROPERTIES('analyzer'='chinese');
-- 全文检索
SELECT id, content
FROM docs
WHERE match_any(content, '向量检索 RAG');
→ 全文检索完整指南 · BM25 参数调优
混合检索(RRF)
将向量检索和全文检索的结果通过 Reciprocal Rank Fusion 融合,兼顾语义相关性和关键词精确匹配,召回质量优于单一方式。
-- 向量检索结果 + 全文检索结果 → RRF 融合排序
WITH vec_results AS (
SELECT id, ROW_NUMBER() OVER (ORDER BY cosine_distance(embedding, AI_EMBEDDING('endpoint:my_embedding', '查询')) ASC) AS rk
FROM docs LIMIT 20
),
fts_results AS (
SELECT id, ROW_NUMBER() OVER (ORDER BY SCORE() DESC) AS rk
FROM docs WHERE match_any(content, '查询') LIMIT 20
)
SELECT id, SUM(1.0 / (60 + rk)) AS rrf_score
FROM (SELECT * FROM vec_results UNION ALL SELECT * FROM fts_results)
GROUP BY id
ORDER BY rrf_score DESC
LIMIT 5;
→ 混合检索最佳实践
多模数据检索
在同一张表上同时建向量索引和倒排索引,支持向量相似度 + 结构化条件(时间、分类、标签)组合过滤,无需跨表 JOIN。
-- 语义搜索 + 结构化过滤
SELECT id, content
FROM docs
WHERE category = 'tech'
AND create_time >= '2024-01-01'
ORDER BY cosine_distance(embedding, AI_EMBEDDING('endpoint:my_embedding', '机器学习')) ASC
LIMIT 10;
→ 多模数据检索指南
典型场景
RAG 知识库问答:文档入库 →
AI_EMBEDDING
AI_EMBEDDING
向量化 → 向量索引 → 用户提问时 ANN 召回 →
AI_COMPLETE
AI_COMPLETE
生成回答
企业搜索:中文分词倒排索引 + 向量索引混合检索,兼顾精确匹配和语义理解
推荐系统:用户行为向量化 → ANN 检索相似用户或商品
图像检索:图像特征向量存入 VECTOR 列 → 相似图像 ANN 搜索
相关文档