Data Engineering Agent 端到端教程
本教程展示如何按 Data Engineering Agent 的典型流程完成一次从数据探查到任务诊断的闭环。教程使用销售分析场景作为示例,重点说明每一步应让 Agent 做什么、用户应确认什么、什么时候进入下一步。
完整流程包括:
- 数据探查
- 指标规范设计
- 搭建数仓
- 创建 Pipeline
- 任务诊断
先探索,再推进完整流程
虽然这是一篇端到端教程,但真实使用时,用户并不需要一开始就知道完整路线。
更自然的方式通常是:
- 先让 Agent 帮你看表、看现有任务、看目录和当前状态
- 再根据这些信息决定下一步是先确认指标口径、先做分层方案,还是先建草稿任务
- 每一步确认后,再继续推进到下一步
如果你对这张表、当前目录或现有任务还不熟,可以先这样问:
这类探索性起手,通常比一开始就直接要求完成整条流程更稳。
场景目标
假设有一张销售明细表:
目标是:
- 理解表结构和字段含义
- 设计销售分析核心指标
- 设计 Silver / Gold 或 DWD / DWS 分层方案
- 创建 Studio SQL 草稿任务
- 配置调度和发布前检查
- 发生失败时定位原因并判断是否需要重跑
数据探查
先让 Agent 做只读探查,不创建任务,不写入数据。
推荐提问:
用户应关注:
- 哪些字段是金额、数量、时间、客户、商品
- 是否存在空值或异常值
- 日期字段是业务时间还是系统时间
- 是否存在状态字段、退款字段或有效标识
完成数据探查后,再进入指标设计。
指标规范设计
让 Agent 基于字段含义设计指标口径。
推荐提问:
用户应确认:
- 销售额使用哪个金额字段
- 订单数是订单行数还是订单数
- 客单价按订单还是客户计算
- 业务分析使用哪个日期字段
- 是否需要排除退款、取消或无效记录
如果口径未确认,不要进入生产建模。
搭建数仓
指标口径确认后,让 Agent 设计分层方案。
推荐提问:
用户应检查:
- 每层目标是否清楚
- 输入表和输出表是否正确
- 清洗规则是否符合业务口径
- 汇总粒度是否满足分析需求
- 是否需要落表
- 是否需要调度依赖
确认方案后,再让 Agent 创建任务草稿。
创建 Pipeline
创建 Pipeline 前,应准备好任务目录。测试任务可放在:
生产任务应放在稳定的业务域或项目目录下。
如果在这一步之前,你还不确定目录是否合适或是否已有任务可以复用,也可以先问:
推荐提问:
草稿创建后,应在 IDE 中检查:
- 任务是否在正确目录
- SQL 是否引用正确表
- SQL 是只读、建表、插入还是覆盖写入
- 目标表名是否符合规范
- Gold 是否引用正确的 Silver 输出
如果创建的是组合任务、Flow 或多节点任务,还必须继续检查:
- 画布中是否出现了预期节点
- 节点之间是否有依赖边
- DAG 是否为空
- 节点内容是否真的属于该组合任务,而不是单独散落成独立任务
这一步应以 Studio 画布中的实际结果为准,不要只根据 Agent 回答中的“已创建依赖”判断成功。
配置调度和发布前检查
发布前先保存或检查调度配置,不要直接发布。
如果你还不确定这组任务现在是否适合进入调度阶段,也可以先问:
推荐提问:
发布前必须确认:
- Cron
- VCluster
- 重试和超时
- 上下游依赖
- 发布后是否立即运行
- 下一次计划运行时间
- 取消发布方式
确认无误后再发布:
任务诊断
任务失败时,不要直接重跑。先让 Agent 诊断。
如果你还不知道该从哪个实例开始查,先看最近一次运行状态通常更稳。
如果知道实例 ID:
如果不知道实例 ID:
诊断报告应回答:
- 失败发生在哪个阶段
- 是 SQL、权限、表不存在、资源、调度依赖还是数据异常
- 是否已经写入数据
- 是否影响下游
- 是否建议重跑
- 修复步骤是什么
监控为空时怎么看
新工作空间、测试空间或长期未运行的空间,运行监控中可能完全没有实例数据。这种情况不表示功能异常,而是说明:
- 最近时间窗口内没有任务运行
- 没有失败实例
- 没有补数任务
如果最近 24 小时没有数据,建议继续检查:
- 最近 30 天是否有运行记录
- 任务是否只是创建了草稿但从未执行或发布
- 当前工作空间是否本来就只用于开发验证
因此,空监控页本身也需要在教程中被视为一种正常结果,而不是异常状态。
清理测试任务
测试任务完成后应清理。
清理前先确认:
- 是否已发布
- 是否有下游依赖
- 是否需要保留运行记录
- 是否可以从 Studio UI 删除草稿
推荐提问:
