Datus 与云器 Lakehouse 集成介绍

什么是Datus

Datus是一个开源的数据工程智能体(open-source data engineering agent),专为数据系统构建可演化的上下文环境。Datus 代表了数据工程的范式转变:从传统的“构建表和数据管道”转向“为分析师和业务用户提供具有领域感知能力的智能代理”。

命令行方式快速一览:

Web方式快速一览:

核心组件

Datus-CLI:面向数据工程师的 AI 驱动命令行界面,可以理解为“数据工程师的 Claude Code”。主要功能包括:

  • 交互式SQL编写: 通过自然语言生成和优化SQL查询
  • 子代理构建: 创建专门领域的智能代理(subagents)
  • 上下文构建: 交互式地为数据系统构建和演化上下文知识

Datus-Chat:Web 聊天机器人,为数据分析师提供:

  • 多轮对话: 持续的数据探索和分析对话
  • 反馈机制: 内置点赞、问题报告、成功案例等反馈系统
  • 用户友好: 为非技术用户优化的界面体验

Datus-API:为其他智能体或应用程序提供稳定、准确的数据服务 API。

技术特性

  • 多 AI 模型支持:集成通义千问、DeepSeek、OpenAI、Claude 等多种 AI 模型
  • 可扩展架构:支持 MCP(Model Context Protocol)工具集成。
  • 多数据源连接:支持各种数据库和数据仓库平台。
  • 中文优化:针对中文语境和使用习惯进行了专门优化。

集成架构

┌─────────────────────────────────────────────────────────────────┐ │ User Interface Layer │ ├──────────────────────────────┬──────────────────────────────────┤ │ Datus-CLI │ Datus-Chat │ │ (Command Line) │ (Web Interface) │ │ ┌─────────────────────────┐ │ ┌─────────────────────────────┐ │ │ │ • Natural Lang Query │ │ │ • Multi-turn Conversations │ │ │ │ • SQL Generation │ │ │ • Subagent Selection │ │ │ │ • MCP Tool Invocation │ │ │ • Feedback Mechanisms │ │ │ └─────────────────────────┘ │ └─────────────────────────────┘ │ └──────────────────────────────┴──────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────────┐ │ Datus Agent Core │ ├─────────────────────────────────────────────────────────────────┤ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────────────────────┐ │ │ │ AI Models │ │ Subagents │ │ Context Management │ │ │ │ │ │ │ │ │ │ │ │ • Qwen │ │ • lakehouse │ │ • Database Schema │ │ │ │ • DeepSeek │ │ • mcp_agent │ │ • Query History │ │ │ │ • OpenAI │ │ │ │ • Embedding Vectors │ │ │ │ • Claude │ │ │ │ • Knowledge Base │ │ │ └─────────────┘ └─────────────┘ └─────────────────────────────┘ │ └─────────────────────────────────────────────────────────────────┘ │ ┌────────────────┴────────────────┐ ▼ ▼ (Datus-ClickZetta) (MCP Protocol) ┌─────────────────────────┐ ┌─────────────────────────┐ │ Data Layer │ │ Tool Extension │ ├─────────────────────────┤ ├─────────────────────────┤ │ ClickZetta Lakehouse │◄─────┤ ClickZetta MCP Server │ │ │ │ │ │ ┌─────────────────────┐ │ │ ┌─────────────────────┐ │ │ │ • Data Storage │ │ │ │ • Instance Mgmt │ │ │ │ • Compute Engine │ │ │ │ • Job Monitoring │ │ │ │ • SQL Execution │ │ │ │ • System Ops │ │ │ │ • Metadata Mgmt │ │ │ │ • Analytics │ │ │ └─────────────────────┘ │ │ └─────────────────────┘ │ │ │ │ │ │ Connection: │ │ Connection: │ │ • Service Endpoint │ │ • HTTP Transport │ │ • Username/Password │ │ • SSE Transport │ │ • Instance/Workspace │ │ • Tool Filtering │ └─────────────────────────┘ └─────────────────────────┘

架构说明

用户交互层

  • Datus-CLI:为数据工程师提供命令行交互方式
  • Datus-Chat:为数据分析师和业务用户提供 Web 界面

Datus Agent 核心

  • AI 模型层:支持多种大语言模型,可根据任务类型选择最适合的模型
  • 子代理管理:不同的智能代理负责不同的业务场景。
  • 上下文管理:维护数据系统的知识图谱和查询上下文。

数据层

  • 云器 Lakehouse:提供数据存储、计算和 SQL 执行能力

工具扩展层

  • 云器 Lakehouse MCP Server:云器 Lakehouse 官方提供的 MCP 服务器,通过标准化协议扩展系统能力,提供高级管理和分析工具

连接关系说明

  1. Datus ↔ 云器 Lakehouse:通过 Datus-ClickZetta 连接器实现数据库连接,支持 SQL 查询执行和元数据获取。
  2. Datus ↔ 云器 Lakehouse MCP Server:通过 MCP 协议 连接,调用高级管理和分析工具。
  3. 云器 Lakehouse MCP Server ↔ 云器 Lakehouse:MCP Server 作为云器 Lakehouse 的扩展服务,可以访问和管理底层数据平台。

集成价值

Datus + 云器 Lakehouse

云器 Lakehouse 作为现代化的数据湖仓一体平台,具有强大的数据处理和存储能力。与 Datus 集成后:

  1. 降低使用门槛: 业务用户无需学习SQL,即可直接查询和分析海量数据
  2. 提高分析效率: 自然语言查询大幅减少了数据探索的时间成本
  3. 智能化洞察: AI驱动的查询优化和结果解释,帮助用户更好理解数据
  4. 中文友好:针对中文语境优化,更适合国内用户使用习惯。

Datus + 云器 Lakehouse MCP Server

通过云器 Lakehouse 官方提供的 MCP Server 集成,进一步扩展了系统能力:

  1. 实例管理: 智能切换不同的云器Lakehouse实例和环境
  2. 作业监控:查询和分析 SQL 作业的执行历史和性能指标。
  3. 系统运维:通过自然语言进行系统状态查询和配置管理。
  4. 高级分析:利用专门的分析工具进行深度数据洞察。
  5. 工作流自动化:将复杂的数据处理流程封装为简单的自然语言指令。

适用场景

  • 数据分析师:快速探索和分析业务数据,生成报表和洞察
  • 业务用户:无技术背景的用户也能轻松查询所需数据
  • 数据工程师:通过 MCP 工具进行系统管理和作业监控
  • 决策者:快速获取关键业务指标和趋势分析

本指南最后更新时间:2025年11月

联系我们
预约咨询
微信咨询
电话咨询
邮件咨询