Lakehouse AI 功能概述
云器 Lakehouse 将 AI 能力原生集成到数据平台中——你可以直接在 SQL 里调用大模型、做向量检索、构建 RAG 管道,不需要把数据搬到外部 AI 平台。
选型指南
| 我想做的事 | 推荐方案 |
|---|---|
| 在 SQL 查询里调用 LLM(文本分类、摘要、抽取、翻译) | AI Functions / AI_COMPLETE |
| 管理和切换多个 LLM 模型(OpenAI、通义、文心等) | AI Gateway |
| 语义相似度搜索、RAG 召回、图像检索 | 向量检索 |
| 调用外部 HTTP 服务(云函数、视觉 API、自定义模型) | External Function |
| 用 Python 做数据处理 + AI 推理,类 PySpark 接口 | Zettapark |
| 为 BI 工具和 AI Agent 封装业务语义层 | 语义视图 |
| 自然语言对话式数据分析,零门槛查数据 | Data Analytics Agent(DataGPT) |
| 让 AI Agent 直接操作 Lakehouse | CZ-CLI |
核心能力
AI Functions — 在 SQL 里调用大模型
AI_COMPLETE 是最直接的入口:一条 SQL,对每一行数据调用 LLM,结果直接出现在查询结果集里。
→ AI Functions 完整文档 · AI_COMPLETE 语法参考 · AI Gateway 模型管理
向量检索 — 语义搜索与 RAG
在表上创建向量索引,支持近似最近邻(ANN)检索,适合语义搜索、知识库问答、图像相似度等场景。
→ 向量检索完整文档 · 向量索引 · 全文检索 + 向量混合搜索最佳实践
External Function — 调用外部 AI 服务
将阿里云函数计算、腾讯云 SCF 等 HTTP 服务注册为 SQL 函数,在查询中直接调用视觉识别、语音转写、自定义模型等能力。
→ External Function 介绍 · 开发指南(Python) · 使用指南
语义视图 — 为 AI Agent 和 BI 工具提供语义层
将多表 JOIN 和聚合逻辑封装为业务语义,BI 工具和 AI Agent 通过语义视图访问数据,屏蔽底层表结构复杂度,统一指标口径。
→ 语义视图概述 · 与 AI 功能集成 · 用 AI Agent 生成语义视图
Zettapark — Python 数据处理与 AI 推理
类 PySpark 的 Python 接口,在 Lakehouse 上运行 Python 脚本,适合特征工程、模型推理、复杂数据处理等 SQL 无法覆盖的场景。
→ Zettapark 快速上手 · 信用评分示例 · 特征工程示例
典型场景
RAG 知识库问答:文档入库 → 向量化 → 向量索引 → 用户提问时召回相关片段 → AI_COMPLETE 生成回答 → 向量检索指南 · 混合检索最佳实践
批量文本处理:评论情感分析、合同信息抽取、多语言翻译 → AI Functions 概述
AI 增强 BI:语义视图统一指标口径,Data Analytics Agent 自然语言查数据 → 语义视图最佳实践
图像 / 多模态处理:调用视觉 API 做图像分类、OCR → 利用 Hugging Face 图片识别模型处理图片数据
