Datus 与云器 Lakehouse 集成介绍
什么是Datus
Datus是一个开源的数据工程智能体(open-source data engineering agent),专为数据系统构建可演化的上下文环境。Datus 代表了数据工程的范式转变:从传统的“构建表和数据管道”转向“为分析师和业务用户提供具有领域感知能力的智能代理”。
命令行方式快速一览:

Web方式快速一览:

核心组件
Datus-CLI:面向数据工程师的 AI 驱动命令行界面,可以理解为“数据工程师的 Claude Code”。主要功能包括:
- 交互式SQL编写: 通过自然语言生成和优化SQL查询
- 子代理构建: 创建专门领域的智能代理(subagents)
- 上下文构建: 交互式地为数据系统构建和演化上下文知识
Datus-Chat:Web 聊天机器人,为数据分析师提供:
- 多轮对话: 持续的数据探索和分析对话
- 反馈机制: 内置点赞、问题报告、成功案例等反馈系统
- 用户友好: 为非技术用户优化的界面体验
Datus-API:为其他智能体或应用程序提供稳定、准确的数据服务 API。
技术特性
- 多 AI 模型支持:集成通义千问、DeepSeek、OpenAI、Claude 等多种 AI 模型
- 可扩展架构:支持 MCP(Model Context Protocol)工具集成。
- 多数据源连接:支持各种数据库和数据仓库平台。
- 中文优化:针对中文语境和使用习惯进行了专门优化。
集成架构
┌─────────────────────────────────────────────────────────────────┐
│ User Interface Layer │
├──────────────────────────────┬──────────────────────────────────┤
│ Datus-CLI │ Datus-Chat │
│ (Command Line) │ (Web Interface) │
│ ┌─────────────────────────┐ │ ┌─────────────────────────────┐ │
│ │ • Natural Lang Query │ │ │ • Multi-turn Conversations │ │
│ │ • SQL Generation │ │ │ • Subagent Selection │ │
│ │ • MCP Tool Invocation │ │ │ • Feedback Mechanisms │ │
│ └─────────────────────────┘ │ └─────────────────────────────┘ │
└──────────────────────────────┴──────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────────┐
│ Datus Agent Core │
├─────────────────────────────────────────────────────────────────┤
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────────────────────┐ │
│ │ AI Models │ │ Subagents │ │ Context Management │ │
│ │ │ │ │ │ │ │
│ │ • Qwen │ │ • lakehouse │ │ • Database Schema │ │
│ │ • DeepSeek │ │ • mcp_agent │ │ • Query History │ │
│ │ • OpenAI │ │ │ │ • Embedding Vectors │ │
│ │ • Claude │ │ │ │ • Knowledge Base │ │
│ └─────────────┘ └─────────────┘ └─────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────┘
│
┌────────────────┴────────────────┐
▼ ▼
(Datus-ClickZetta) (MCP Protocol)
┌─────────────────────────┐ ┌─────────────────────────┐
│ Data Layer │ │ Tool Extension │
├─────────────────────────┤ ├─────────────────────────┤
│ ClickZetta Lakehouse │◄─────┤ ClickZetta MCP Server │
│ │ │ │
│ ┌─────────────────────┐ │ │ ┌─────────────────────┐ │
│ │ • Data Storage │ │ │ │ • Instance Mgmt │ │
│ │ • Compute Engine │ │ │ │ • Job Monitoring │ │
│ │ • SQL Execution │ │ │ │ • System Ops │ │
│ │ • Metadata Mgmt │ │ │ │ • Analytics │ │
│ └─────────────────────┘ │ │ └─────────────────────┘ │
│ │ │ │
│ Connection: │ │ Connection: │
│ • Service Endpoint │ │ • HTTP Transport │
│ • Username/Password │ │ • SSE Transport │
│ • Instance/Workspace │ │ • Tool Filtering │
└─────────────────────────┘ └─────────────────────────┘
架构说明
用户交互层:
- Datus-CLI:为数据工程师提供命令行交互方式
- Datus-Chat:为数据分析师和业务用户提供 Web 界面
Datus Agent 核心:
- AI 模型层:支持多种大语言模型,可根据任务类型选择最适合的模型
- 子代理管理:不同的智能代理负责不同的业务场景。
- 上下文管理:维护数据系统的知识图谱和查询上下文。
数据层:
- 云器 Lakehouse:提供数据存储、计算和 SQL 执行能力
工具扩展层:
- 云器 Lakehouse MCP Server:云器 Lakehouse 官方提供的 MCP 服务器,通过标准化协议扩展系统能力,提供高级管理和分析工具
连接关系说明
- Datus ↔ 云器 Lakehouse:通过 Datus-ClickZetta 连接器实现数据库连接,支持 SQL 查询执行和元数据获取。
- Datus ↔ 云器 Lakehouse MCP Server:通过 MCP 协议 连接,调用高级管理和分析工具。
- 云器 Lakehouse MCP Server ↔ 云器 Lakehouse:MCP Server 作为云器 Lakehouse 的扩展服务,可以访问和管理底层数据平台。
集成价值
Datus + 云器 Lakehouse
云器 Lakehouse 作为现代化的数据湖仓一体平台,具有强大的数据处理和存储能力。与 Datus 集成后:
- 降低使用门槛: 业务用户无需学习SQL,即可直接查询和分析海量数据
- 提高分析效率: 自然语言查询大幅减少了数据探索的时间成本
- 智能化洞察: AI驱动的查询优化和结果解释,帮助用户更好理解数据
- 中文友好:针对中文语境优化,更适合国内用户使用习惯。
Datus + 云器 Lakehouse MCP Server
通过云器 Lakehouse 官方提供的 MCP Server 集成,进一步扩展了系统能力:
- 实例管理: 智能切换不同的云器Lakehouse实例和环境
- 作业监控:查询和分析 SQL 作业的执行历史和性能指标。
- 系统运维:通过自然语言进行系统状态查询和配置管理。
- 高级分析:利用专门的分析工具进行深度数据洞察。
- 工作流自动化:将复杂的数据处理流程封装为简单的自然语言指令。
适用场景
- 数据分析师:快速探索和分析业务数据,生成报表和洞察
- 业务用户:无技术背景的用户也能轻松查询所需数据
- 数据工程师:通过 MCP 工具进行系统管理和作业监控
- 决策者:快速获取关键业务指标和趋势分析
本指南最后更新时间:2025年11月