云器 Lakehouse AI Functions 概述
AI Functions 像"内置在 SQL 里的 AI 助手"——你写一条
SELECT,系统自动对每一行数据调用大模型,结果直接出现在查询结果集里,不需要写 Python、不需要搭服务、不需要把数据导出到外部系统。
什么时候用 AI Functions,什么时候用其他方案:
| 场景 | 推荐方案 |
|---|---|
| 对表中每行文本做分类、抽取、翻译、情感分析 | AI Functions(本页) |
| 需要自定义复杂逻辑、多步骤 AI 流程 | Python UDF + AI SDK |
| 一次性调用、交互式问答 | 直接调用模型 API |
| 已有外部 AI 服务,只需在 SQL 中调用 | API Connection + AI Functions |
AI Functions 的核心机制:AI 计算下沉至 SQL 执行引擎,每行数据在平台内部完成模型调用,无需数据外流,兼顾数据安全与批量处理效率。
AI ETL 管道架构
AI Functions 在 SQL 引擎层将各类数据源(文本、图像、音频、结构化数据)经过 AI 处理后输出结构化结果,直接写回数据仓库或流向下游应用,构成完整的 AI ETL 管道:
快速开始
以下示例展示典型用法模式,将
endpoint: 替换为实际配置的 Endpoint 名称,将表名替换为实际业务表即可运行。
函数分类
文本理解与生成
| 函数 | 功能描述 |
|---|---|
| AI_COMPLETE | 通用 LLM 补全,支持自定义 Prompt,适合复杂推理、代码生成等任务 |
| AI_SUMMARIZE | 生成文本摘要,支持 控制摘要长度 |
| AI_TRANSLATE | 多语言翻译,自动检测源语言,支持 20+ 语言互译 |
| AI_FIX_GRAMMAR | 语法与拼写纠错,支持中英文及多语言混合文本 |
文本分析与分类
| 函数 | 功能描述 |
|---|---|
| AI_CLASSIFY | 将文本或图像归入用户定义的类别,无需编写 Prompt |
| AI_SENTIMENT | 情感倾向分析,返回 / / / |
| AI_EXTRACT | 从非结构化文本或图像中抽取结构化 JSON 字段 |
| AI_MASK | 识别并脱敏文本中的 PII 敏感信息,用 替换 |
向量与语义搜索
| 函数 | 功能描述 |
|---|---|
| AI_EMBEDDING | 将文本转换为高维向量,用于语义检索、推荐等下游任务 |
| AI_SIMILARITY | 基于 Embedding 计算两段文本的余弦相似度,返回 [0, 1] 分值 |
多模态处理
| 函数 | 功能描述 |
|---|---|
| AI_TRANSCRIBE | 将 Volume 中的音频文件转录为文本(ASR) |
| AI_CLASSIFY | 支持图像输入,对图像内容进行分类 |
| AI_EXTRACT | 支持图像输入,从图像中抽取结构化信息 |
| AI_COMPLETE | 支持图像输入,结合图像与文本 Prompt 生成响应 |
按场景选择函数
| 业务场景 | 推荐函数 |
|---|---|
| 商品 / 内容分类、工单路由 | AI_CLASSIFY |
| 合同 / 发票 / 快递单信息提取 | AI_EXTRACT |
| 用户评论情感分析、舆情监控 | AI_SENTIMENT |
| 新闻摘要、对话总结 | AI_SUMMARIZE |
| 多语言内容翻译 | AI_TRANSLATE |
| UGC 内容清洗、文本纠错 | AI_FIX_GRAMMAR |
| 数据脱敏、合规处理 | AI_MASK |
| 语义搜索、相似推荐 | AI_EMBEDDING + AI_SIMILARITY |
| 客服录音转录与分析 | AI_TRANSCRIBE + AI_CLASSIFY / AI_EXTRACT |
| 图像内容识别与结构化 | AI_CLASSIFY / AI_EXTRACT(图像模式) |
| 复杂推理、代码生成、自定义任务 | AI_COMPLETE |
模型接入方式
所有 AI Functions 的第一个参数均为
model,支持两种接入方式:
方式一:API Gateway Endpoint(推荐)
平台管理员在 API Gateway 中预先配置模型服务,普通用户通过
endpoint: 前缀引用,无需关心底层连接细节。
方式二:API Connection 连接对象
用户通过
CREATE API CONNECTION 自行创建连接对象,适用于自定义服务地址、私有化部署模型等场景。
典型管道示例
客服录音分析管道
文档结构化入库管道
语义搜索管道
通用 options 参数
AI_CLASSIFY、AI_EXTRACT、AI_SIMILARITY、AI_TRANSCRIBE 等函数支持可选的 options JSON 参数:
| 参数键 | 类型 | 说明 |
|---|---|---|
| STRING | 单次请求超时时间(秒),如 |
| STRING | 批量处理并发度,如 |
| JSON | 透传给模型的参数,如 |
使用说明
- 模型选择:文本理解类任务推荐
或qwen3.5-plus
;向量任务使用专用 Embedding 模型(如qwen3-max-preview
);语音转录使用 ASR 模型(如text-embedding-v4
)。qwen3-asr-flash - Thinking 模式:部分模型(如 qwen3 系列)默认开启 thinking 模式,会增加延迟和 token 消耗。批量处理场景建议通过
关闭:model.params
。{"enable_thinking": false} - NULL 行为:当模型无法处理输入(如内容为空、超出长度限制)时,大多数函数返回 NULL,不影响其他行的执行。各函数的具体 NULL 行为见各函数文档的错误行为章节。
- 图像输入:图像需先上传至 Volume,通过
生成预签名 URL,并以GET_PRESIGNED_URL()
语法传入函数。(url AS image) - 专用函数优先:当任务可以用专用函数(如 AI_TRANSLATE、AI_SENTIMENT)完成时,优先使用专用函数,其内置了针对特定任务优化的 Prompt,结果更稳定、成本更低。
使用前提
- 已在 API Gateway 中配置好模型 Endpoint,或已通过
创建连接对象。CREATE API CONNECTION - 当前用户对相关 Endpoint 或 Connection 有调用权限。
- 图像和音频处理场景需将文件上传至 Volume,并通过
获取访问 URL。GET_PRESIGNED_URL()
相关文档
- AI_COMPLETE — 通用 LLM 补全,适合自定义 Prompt 场景
- AI_CLASSIFY — 文本与图像分类
- AI_EXTRACT — 从文本或图像中抽取结构化 JSON
- AI_SENTIMENT — 情感倾向分析
- AI_SUMMARIZE — 文本摘要生成
- AI_TRANSLATE — 多语言翻译
- AI_FIX_GRAMMAR — 语法与拼写纠错
- AI_MASK — PII 敏感信息脱敏
- AI_EMBEDDING — 文本向量化
- AI_SIMILARITY — 文本语义相似度计算
- AI_TRANSCRIBE — 音频转录(ASR)
联系我们
