AI 的数据准备

云器 Lakehouse 将向量检索、全文搜索和结构化数据分析统一在同一平台,让 AI 应用直接在数据所在的地方完成检索和计算,无需将数据搬到外部向量数据库或搜索引擎。


选型指南

我需要做的事推荐方案
语义相似度搜索、RAG 召回、图像检索向量检索
关键词搜索、日志检索、中文分词搜索全文检索
向量 + 关键词混合检索,提升召回质量混合检索(RRF)
向量检索 + 结构化过滤(如时间范围、分类标签)同一张表多模数据检索

核心能力

向量检索

在表上创建向量索引(HNSW),支持近似最近邻(ANN)检索。适合语义搜索、知识库问答、图像相似度等场景。

-- 创建含向量列的表 CREATE TABLE docs ( id BIGINT, content STRING, embedding VECTOR(1536) ); -- 创建向量索引 CREATE VECTOR INDEX idx_vec ON TABLE docs (embedding) PROPERTIES ("scalar.type" = "f32", "distance.function" = "cosine_distance"); -- 语义搜索:找最相近的 5 条文档 -- endpoint:my_embedding 是你在 AI Gateway 配置的 Embedding 端点名 SELECT id, content FROM docs ORDER BY cosine_distance(embedding, AI_EMBEDDING('endpoint:my_embedding', '用户的问题')) ASC LIMIT 5;

向量检索完整指南


全文检索

基于倒排索引,支持中英文分词、BM25 相关性排序、短语匹配。适合文档搜索、日志检索、评论分析等场景。

-- 创建倒排索引 CREATE INVERTED INDEX idx_content ON TABLE docs (content) PROPERTIES('analyzer'='chinese'); -- 全文检索 SELECT id, content FROM docs WHERE match_any(content, '向量检索 RAG');

全文检索完整指南 · BM25 参数调优


混合检索(RRF)

将向量检索和全文检索的结果通过 Reciprocal Rank Fusion 融合,兼顾语义相关性和关键词精确匹配,召回质量优于单一方式。

-- 向量检索结果 + 全文检索结果 → RRF 融合排序 WITH vec_results AS ( SELECT id, ROW_NUMBER() OVER (ORDER BY cosine_distance(embedding, AI_EMBEDDING('endpoint:my_embedding', '查询')) ASC) AS rk FROM docs LIMIT 20 ), fts_results AS ( SELECT id, ROW_NUMBER() OVER (ORDER BY SCORE() DESC) AS rk FROM docs WHERE match_any(content, '查询') LIMIT 20 ) SELECT id, SUM(1.0 / (60 + rk)) AS rrf_score FROM (SELECT * FROM vec_results UNION ALL SELECT * FROM fts_results) GROUP BY id ORDER BY rrf_score DESC LIMIT 5;

混合检索最佳实践


多模数据检索

在同一张表上同时建向量索引和倒排索引,支持向量相似度 + 结构化条件(时间、分类、标签)组合过滤,无需跨表 JOIN。

-- 语义搜索 + 结构化过滤 SELECT id, content FROM docs WHERE category = 'tech' AND create_time >= '2024-01-01' ORDER BY cosine_distance(embedding, AI_EMBEDDING('endpoint:my_embedding', '机器学习')) ASC LIMIT 10;

多模数据检索指南


典型场景

RAG 知识库问答:文档入库 →

AI_EMBEDDING
AI_EMBEDDING
向量化 → 向量索引 → 用户提问时 ANN 召回 →
AI_COMPLETE
AI_COMPLETE
生成回答

企业搜索:中文分词倒排索引 + 向量索引混合检索,兼顾精确匹配和语义理解

推荐系统:用户行为向量化 → ANN 检索相似用户或商品

图像检索:图像特征向量存入 VECTOR 列 → 相似图像 ANN 搜索


相关文档

文档说明
向量检索向量索引创建、ANN 搜索、距离函数
全文检索倒排索引、分词器、MATCH 查询
混合检索最佳实践RRF 融合排序完整示例
多模数据检索向量 + 结构化过滤组合
AI 函数AI_EMBEDDING、AI_COMPLETE 等 SQL 内置 AI 函数
向量索引向量索引 DDL 语法参考
倒排索引倒排索引 DDL 语法参考
联系我们
预约咨询
微信咨询
电话咨询