Data Engineering Agent 基础使用场景

本文面向第一次使用 Data Engineering Agent 的用户,介绍几个最常见、最容易上手的基础场景。相比完整的数据管道、调度发布和运维诊断,这些场景更适合用来熟悉 Agent 的交互方式、能力边界和操作入口。

这些基础场景背后的核心使用方式不是“一开始就把需求一次说全”,而通常是:

  • 先问一个探索性问题
  • 再根据 Agent 返回的信息收敛对象和范围
  • 最后再进入查询、建草稿、执行或排查

对第一次使用的用户来说,这种方式通常更自然,也更容易形成稳定使用习惯。

适用人群

本文适合以下用户:

  • 第一次使用 Data Engineering Agent 的数据工程师
  • 需要快速了解 Lakehouse 中数据、任务和作业状态的用户
  • 想用自然语言完成 SQL 查询、任务草稿和工具配置查询的用户
  • 希望先从低风险操作开始体验 Agent 的团队

基础交互入口

进入 Lakehouse 后,可以通过页面中的 Data Agent 入口唤起智能体,也可以在右下角输入框中直接输入问题。输入框支持连续对话,用户可以先提出一个简单问题,再根据 Agent 的回答继续追问。

使用时需要注意:

  • 右下角输入框适合随时提问,不需要先进入复杂配置页面
  • 输入框旁边会显示当前上下文或 token 剩余量,用于提示当前会话还能承载多少上下文
  • 页面中部分按钮和状态有悬浮提示,鼠标悬停后可以查看含义
  • 对只读查询、表结构探查、文档查询等低风险操作,Agent 通常可以直接完成
  • 对创建任务、发布调度、写入数据、重跑任务等变更类操作,Agent 应先说明影响范围并请求确认

先探索,再执行

对第一次使用者来说,最容易上手的方式通常不是直接让 Agent 建任务、发调度或重跑作业,而是先从探索性问题开始。

更适合先探索的场景通常包括:

  • 还不知道当前有哪些表、任务、目录或作业
  • 不确定当前环境开放了哪些工具和权限
  • 不知道一个任务为什么没跑起来
  • 不确定现有对象是否能复用

这类问题更适合这样起手:

  • 帮我看看当前工作区里有哪些任务目录和数据表。
  • 帮我看看这个需求更适合做临时查询,还是沉淀成任务。
  • 帮我看看这个任务最近一次运行状态怎么样。

当对象和范围已经明确后,再进入执行会更稳,例如:

  • 帮我在
    测试任务/临时开发
    测试任务/临时开发
    目录下创建一个 SQL 草稿任务。
  • 把我接下来给你的 SQL 保存进去。
  • 如果这次执行结果正常,再继续发布。

场景一:询问 Agent 能做什么

第一次使用时,可以先让 Agent 说明自己的能力范围。

推荐提问:

适合获得的信息:

  • Agent 支持哪些工作类型
  • 哪些能力是只读查询
  • 哪些能力会修改环境
  • 哪些操作需要确认
  • 当前工作空间开放了哪些工具能力

这个场景适合用来建立对 Data Engineering Agent 的整体认知,避免一开始就直接执行高影响操作。

场景二:查看表结构和样例数据

当用户不熟悉某张表时,可以先让 Agent 查看表结构和少量样例数据,再解释字段含义。

推荐提问:

适合获得的信息:

  • 字段名称和字段类型
  • 字段可能的业务含义
  • 适合用于过滤、分组、排序或汇总的字段
  • 可能存在歧义或需要业务确认的字段

这类只读探查是后续 SQL 开发、任务开发和数仓建模的基础。

场景三:执行简单只读查询

如果只是临时确认一个数据结果,可以让 Agent 直接生成并执行只读查询。

推荐提问:

适合获得的信息:

  • Agent 生成的 SQL
  • 查询结果
  • 查询口径说明
  • 后续是否适合沉淀为任务

如果查询变慢或数据量较大,建议缩小时间范围、增加过滤条件,或先让 Agent 解释查询计划和可能的性能风险。

如果你还不确定是否值得沉淀成任务,也可以先追问:

场景四:把查询沉淀为 Studio 任务草稿

当一个查询需要反复执行,或者后续可能进入调度,就可以让 Agent 创建 Studio 任务草稿。

推荐提问:

创建后应检查:

  • 任务是否出现在指定任务目录下
  • 任务状态是否为未调度
  • SQL 是否符合预期
  • SQL 是只读查询、建表、插入还是覆盖写入
  • 是否引用了正确的 catalog、schema 和表

草稿任务不会自动运行,但如果 SQL 是建表或写入型 SQL,后续手动运行或发布后会真正影响数据。

场景五:让 Agent 解释任务草稿

创建任务草稿后,可以继续让 Agent 解释任务内容和风险点。

推荐提问:

适合获得的信息:

  • SQL 类型
  • 输入表和输出表
  • 运行后是否会创建或写入数据
  • 是否需要配置任务依赖
  • 是否需要补充数据质量检查
  • 是否适合发布为周期任务

这个场景适合在任务从草稿进入运行或发布之前使用。

场景六:查看作业历史和运行状态

如果已经执行过 SQL 或任务,可以让 Agent 帮助查看作业历史和运行状态。

推荐提问:

适合获得的信息:

  • 最近作业运行情况
  • 成功、失败、运行中数量
  • 失败作业 ID
  • 错误摘要
  • 是否需要进一步查看 SQL Profile 或日志

如果要进一步诊断某个失败作业,可以继续追问:

场景七:查询 MCP / CLI / SDK 配置方式

Data Engineering Agent 也适合用来查询 Lakehouse 外部集成方式,例如 MCP Server、CLI、JDBC、Python SDK 等。

推荐提问:

适合获得的信息:

  • MCP Server 的入口和用途
  • CLI / SDK 连接方式
  • 认证和权限要求
  • 常见配置错误
  • 相关产品文档入口

这类问题通常是指导型,不会直接修改环境。

场景八:让 Agent 做操作前检查

在执行创建、发布、重跑、补数、下线、删除等高影响操作前,可以先让 Agent 做检查。

推荐提问:

适合获得的信息:

  • 任务是否已发布
  • 是否存在下游依赖
  • 是否有运行历史
  • 是否属于任务组或管道链路
  • 操作可能影响哪些业务产出
  • 是否建议继续操作

删除类操作是否可以由 Agent 直接完成,取决于当前工具开放范围。如果 Agent 无法直接删除,应在产品界面中手动操作,并让 Agent 辅助确认影响范围。

基础使用建议

刚开始使用 Data Engineering Agent 时,建议遵循以下顺序:

  • 先问能力范围,了解它能做什么
  • 先做只读探查,理解表结构和样例数据
  • 再做只读查询,验证 SQL 和结果
  • 再创建任务草稿,沉淀可复用逻辑
  • 在 IDE 中检查任务目录、SQL 类型和影响范围
  • 发布、调度、重跑、补数等操作前先让 Agent 做影响检查

低风险操作适合直接使用自然语言完成;高影响操作应先看影响范围,再确认执行。

相关文档

联系我们
预约咨询
微信咨询
电话咨询
邮件咨询