Data Engineering Agent 端到端教程

本教程展示如何按 Data Engineering Agent 的典型流程完成一次从数据探查到任务诊断的闭环。教程使用销售分析场景作为示例,重点说明每一步应让 Agent 做什么、用户应确认什么、什么时候进入下一步。

完整流程包括:

  • 数据探查
  • 指标规范设计
  • 搭建数仓
  • 创建 Pipeline
  • 任务诊断

先探索,再推进完整流程

虽然这是一篇端到端教程,但真实使用时,用户并不需要一开始就知道完整路线。

更自然的方式通常是:

  • 先让 Agent 帮你看表、看现有任务、看目录和当前状态
  • 再根据这些信息决定下一步是先确认指标口径、先做分层方案,还是先建草稿任务
  • 每一步确认后,再继续推进到下一步

如果你对这张表、当前目录或现有任务还不熟,可以先这样问:

这类探索性起手,通常比一开始就直接要求完成整条流程更稳。

场景目标

假设有一张销售明细表:

public.demo_xe_sales

目标是:

  • 理解表结构和字段含义
  • 设计销售分析核心指标
  • 设计 Silver / Gold 或 DWD / DWS 分层方案
  • 创建 Studio SQL 草稿任务
  • 配置调度和发布前检查
  • 发生失败时定位原因并判断是否需要重跑

数据探查

先让 Agent 做只读探查,不创建任务,不写入数据。

推荐提问:

用户应关注:

  • 哪些字段是金额、数量、时间、客户、商品
  • 是否存在空值或异常值
  • 日期字段是业务时间还是系统时间
  • 是否存在状态字段、退款字段或有效标识

完成数据探查后,再进入指标设计。

指标规范设计

让 Agent 基于字段含义设计指标口径。

推荐提问:

用户应确认:

  • 销售额使用哪个金额字段
  • 订单数是订单行数还是订单数
  • 客单价按订单还是客户计算
  • 业务分析使用哪个日期字段
  • 是否需要排除退款、取消或无效记录

如果口径未确认,不要进入生产建模。

搭建数仓

指标口径确认后,让 Agent 设计分层方案。

推荐提问:

用户应检查:

  • 每层目标是否清楚
  • 输入表和输出表是否正确
  • 清洗规则是否符合业务口径
  • 汇总粒度是否满足分析需求
  • 是否需要落表
  • 是否需要调度依赖

确认方案后,再让 Agent 创建任务草稿。

创建 Pipeline

创建 Pipeline 前,应准备好任务目录。测试任务可放在:

测试任务/临时开发

生产任务应放在稳定的业务域或项目目录下。

如果在这一步之前,你还不确定目录是否合适或是否已有任务可以复用,也可以先问:

推荐提问:

草稿创建后,应在 IDE 中检查:

  • 任务是否在正确目录
  • SQL 是否引用正确表
  • SQL 是只读、建表、插入还是覆盖写入
  • 目标表名是否符合规范
  • Gold 是否引用正确的 Silver 输出

如果创建的是组合任务、Flow 或多节点任务,还必须继续检查:

  • 画布中是否出现了预期节点
  • 节点之间是否有依赖边
  • DAG 是否为空
  • 节点内容是否真的属于该组合任务,而不是单独散落成独立任务

这一步应以 Studio 画布中的实际结果为准,不要只根据 Agent 回答中的“已创建依赖”判断成功。

配置调度和发布前检查

发布前先保存或检查调度配置,不要直接发布。

如果你还不确定这组任务现在是否适合进入调度阶段,也可以先问:

推荐提问:

发布前必须确认:

  • Cron
  • VCluster
  • 重试和超时
  • 上下游依赖
  • 发布后是否立即运行
  • 下一次计划运行时间
  • 取消发布方式

确认无误后再发布:

任务诊断

任务失败时,不要直接重跑。先让 Agent 诊断。

如果你还不知道该从哪个实例开始查,先看最近一次运行状态通常更稳。

如果知道实例 ID:

如果不知道实例 ID:

诊断报告应回答:

  • 失败发生在哪个阶段
  • 是 SQL、权限、表不存在、资源、调度依赖还是数据异常
  • 是否已经写入数据
  • 是否影响下游
  • 是否建议重跑
  • 修复步骤是什么

监控为空时怎么看

新工作空间、测试空间或长期未运行的空间,运行监控中可能完全没有实例数据。这种情况不表示功能异常,而是说明:

  • 最近时间窗口内没有任务运行
  • 没有失败实例
  • 没有补数任务

如果最近 24 小时没有数据,建议继续检查:

  • 最近 30 天是否有运行记录
  • 任务是否只是创建了草稿但从未执行或发布
  • 当前工作空间是否本来就只用于开发验证

因此,空监控页本身也需要在教程中被视为一种正常结果,而不是异常状态。

清理测试任务

测试任务完成后应清理。

清理前先确认:

  • 是否已发布
  • 是否有下游依赖
  • 是否需要保留运行记录
  • 是否可以从 Studio UI 删除草稿

推荐提问:

下一步阅读

联系我们
预约咨询
微信咨询
电话咨询
邮件咨询