Datus 与云器 Lakehouse 集成介绍

什么是Datus

Datus是一个开源的数据工程智能体(open-source data engineering agent),专为数据系统构建可演化的上下文环境。Datus 代表了数据工程的范式转变:从传统的“构建表和数据管道”转向“为分析师和业务用户提供具有领域感知能力的智能代理”。

命令行方式快速一览:

Web方式快速一览:

核心组件

Datus-CLI:面向数据工程师的 AI 驱动命令行界面,可以理解为“数据工程师的 Claude Code”。主要功能包括:

  • 交互式SQL编写: 通过自然语言生成和优化SQL查询
  • 子代理构建: 创建专门领域的智能代理(subagents)
  • 上下文构建: 交互式地为数据系统构建和演化上下文知识

Datus-Chat:Web 聊天机器人,为数据分析师提供:

  • 多轮对话: 持续的数据探索和分析对话
  • 反馈机制: 内置点赞、问题报告、成功案例等反馈系统
  • 用户友好: 为非技术用户优化的界面体验

Datus-API:为其他智能体或应用程序提供稳定、准确的数据服务 API。

技术特性

  • 多 AI 模型支持:集成通义千问、DeepSeek、OpenAI、Claude 等多种 AI 模型
  • 可扩展架构:支持 MCP(Model Context Protocol)工具集成。
  • 多数据源连接:支持各种数据库和数据仓库平台。
  • 中文优化:针对中文语境和使用习惯进行了专门优化。

集成架构

┌─────────────────────────────────────────────────────────────────┐
│                      User Interface Layer                       │
├──────────────────────────────┬──────────────────────────────────┤
│         Datus-CLI            │         Datus-Chat               │
│      (Command Line)          │       (Web Interface)            │
│  ┌─────────────────────────┐ │  ┌─────────────────────────────┐ │
│  │ • Natural Lang Query    │ │  │ • Multi-turn Conversations  │ │
│  │ • SQL Generation        │ │  │ • Subagent Selection        │ │
│  │ • MCP Tool Invocation   │ │  │ • Feedback Mechanisms       │ │
│  └─────────────────────────┘ │  └─────────────────────────────┘ │
└──────────────────────────────┴──────────────────────────────────┘
                                │
                                ▼
┌─────────────────────────────────────────────────────────────────┐
│                     Datus Agent Core                            │
├─────────────────────────────────────────────────────────────────┤
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────────────────────┐ │
│ │ AI Models   │ │ Subagents   │ │     Context Management      │ │
│ │             │ │             │ │                             │ │
│ │ • Qwen      │ │ • lakehouse │ │ • Database Schema           │ │
│ │ • DeepSeek  │ │ • mcp_agent │ │ • Query History             │ │
│ │ • OpenAI    │ │             │ │ • Embedding Vectors         │ │
│ │ • Claude    │ │             │ │ • Knowledge Base            │ │
│ └─────────────┘ └─────────────┘ └─────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────┘
                                │
               ┌────────────────┴────────────────┐
               ▼                                 ▼
    (Datus-ClickZetta)                 (MCP Protocol)
┌─────────────────────────┐      ┌─────────────────────────┐
│      Data Layer         │      │    Tool Extension       │
├─────────────────────────┤      ├─────────────────────────┤
│  ClickZetta Lakehouse   │◄─────┤ ClickZetta MCP Server   │
│                         │      │                         │
│ ┌─────────────────────┐ │      │ ┌─────────────────────┐ │
│ │ • Data Storage      │ │      │ │ • Instance Mgmt     │ │
│ │ • Compute Engine    │ │      │ │ • Job Monitoring    │ │
│ │ • SQL Execution     │ │      │ │ • System Ops        │ │
│ │ • Metadata Mgmt     │ │      │ │ • Analytics         │ │
│ └─────────────────────┘ │      │ └─────────────────────┘ │
│                         │      │                         │
│ Connection:             │      │ Connection:             │
│ • Service Endpoint      │      │ • HTTP Transport        │
│ • Username/Password     │      │ • SSE Transport         │
│ • Instance/Workspace    │      │ • Tool Filtering        │
└─────────────────────────┘      └─────────────────────────┘

架构说明

用户交互层

  • Datus-CLI:为数据工程师提供命令行交互方式
  • Datus-Chat:为数据分析师和业务用户提供 Web 界面

Datus Agent 核心

  • AI 模型层:支持多种大语言模型,可根据任务类型选择最适合的模型
  • 子代理管理:不同的智能代理负责不同的业务场景。
  • 上下文管理:维护数据系统的知识图谱和查询上下文。

数据层

  • 云器 Lakehouse:提供数据存储、计算和 SQL 执行能力

工具扩展层

  • 云器 Lakehouse MCP Server:云器 Lakehouse 官方提供的 MCP 服务器,通过标准化协议扩展系统能力,提供高级管理和分析工具

连接关系说明

  1. Datus ↔ 云器 Lakehouse:通过 Datus-ClickZetta 连接器实现数据库连接,支持 SQL 查询执行和元数据获取。
  2. Datus ↔ 云器 Lakehouse MCP Server:通过 MCP 协议 连接,调用高级管理和分析工具。
  3. 云器 Lakehouse MCP Server ↔ 云器 Lakehouse:MCP Server 作为云器 Lakehouse 的扩展服务,可以访问和管理底层数据平台。

集成价值

Datus + 云器 Lakehouse

云器 Lakehouse 作为现代化的数据湖仓一体平台,具有强大的数据处理和存储能力。与 Datus 集成后:

  1. 降低使用门槛: 业务用户无需学习SQL,即可直接查询和分析海量数据
  2. 提高分析效率: 自然语言查询大幅减少了数据探索的时间成本
  3. 智能化洞察: AI驱动的查询优化和结果解释,帮助用户更好理解数据
  4. 中文友好:针对中文语境优化,更适合国内用户使用习惯。

Datus + 云器 Lakehouse MCP Server

通过云器 Lakehouse 官方提供的 MCP Server 集成,进一步扩展了系统能力:

  1. 实例管理: 智能切换不同的云器Lakehouse实例和环境
  2. 作业监控:查询和分析 SQL 作业的执行历史和性能指标。
  3. 系统运维:通过自然语言进行系统状态查询和配置管理。
  4. 高级分析:利用专门的分析工具进行深度数据洞察。
  5. 工作流自动化:将复杂的数据处理流程封装为简单的自然语言指令。

适用场景

  • 数据分析师:快速探索和分析业务数据,生成报表和洞察
  • 业务用户:无技术背景的用户也能轻松查询所需数据
  • 数据工程师:通过 MCP 工具进行系统管理和作业监控
  • 决策者:快速获取关键业务指标和趋势分析

本指南最后更新时间:2025年11月

联系我们
预约咨询
微信咨询
电话咨询