Data Engineering Agent 基础使用场景
本文面向第一次使用 Data Engineering Agent 的用户,介绍几个最常见、最容易上手的基础场景。相比完整的数据管道、调度发布和运维诊断,这些场景更适合用来熟悉 Agent 的交互方式、能力边界和操作入口。
这些基础场景背后的核心使用方式不是“一开始就把需求一次说全”,而通常是:
- 先问一个探索性问题
- 再根据 Agent 返回的信息收敛对象和范围
- 最后再进入查询、建草稿、执行或排查
对第一次使用的用户来说,这种方式通常更自然,也更容易形成稳定使用习惯。
适用人群
本文适合以下用户:
- 第一次使用 Data Engineering Agent 的数据工程师
- 需要快速了解 Lakehouse 中数据、任务和作业状态的用户
- 想用自然语言完成 SQL 查询、任务草稿和工具配置查询的用户
- 希望先从低风险操作开始体验 Agent 的团队
基础交互入口
进入 Lakehouse 后,可以通过页面中的 Data Agent 入口唤起智能体,也可以在右下角输入框中直接输入问题。输入框支持连续对话,用户可以先提出一个简单问题,再根据 Agent 的回答继续追问。
使用时需要注意:
- 右下角输入框适合随时提问,不需要先进入复杂配置页面
- 输入框旁边会显示当前上下文或 token 剩余量,用于提示当前会话还能承载多少上下文
- 页面中部分按钮和状态有悬浮提示,鼠标悬停后可以查看含义
- 对只读查询、表结构探查、文档查询等低风险操作,Agent 通常可以直接完成
- 对创建任务、发布调度、写入数据、重跑任务等变更类操作,Agent 应先说明影响范围并请求确认
先探索,再执行
对第一次使用者来说,最容易上手的方式通常不是直接让 Agent 建任务、发调度或重跑作业,而是先从探索性问题开始。
更适合先探索的场景通常包括:
- 还不知道当前有哪些表、任务、目录或作业
- 不确定当前环境开放了哪些工具和权限
- 不知道一个任务为什么没跑起来
- 不确定现有对象是否能复用
这类问题更适合这样起手:
- 帮我看看当前工作区里有哪些任务目录和数据表。
- 帮我看看这个需求更适合做临时查询,还是沉淀成任务。
- 帮我看看这个任务最近一次运行状态怎么样。
当对象和范围已经明确后,再进入执行会更稳,例如:
- 帮我在
目录下创建一个 SQL 草稿任务。测试任务/临时开发 - 把我接下来给你的 SQL 保存进去。
- 如果这次执行结果正常,再继续发布。
场景一:询问 Agent 能做什么
第一次使用时,可以先让 Agent 说明自己的能力范围。
推荐提问:
适合获得的信息:
- Agent 支持哪些工作类型
- 哪些能力是只读查询
- 哪些能力会修改环境
- 哪些操作需要确认
- 当前工作空间开放了哪些工具能力
这个场景适合用来建立对 Data Engineering Agent 的整体认知,避免一开始就直接执行高影响操作。
场景二:查看表结构和样例数据
当用户不熟悉某张表时,可以先让 Agent 查看表结构和少量样例数据,再解释字段含义。
推荐提问:
适合获得的信息:
- 字段名称和字段类型
- 字段可能的业务含义
- 适合用于过滤、分组、排序或汇总的字段
- 可能存在歧义或需要业务确认的字段
这类只读探查是后续 SQL 开发、任务开发和数仓建模的基础。
场景三:执行简单只读查询
如果只是临时确认一个数据结果,可以让 Agent 直接生成并执行只读查询。
推荐提问:
适合获得的信息:
- Agent 生成的 SQL
- 查询结果
- 查询口径说明
- 后续是否适合沉淀为任务
如果查询变慢或数据量较大,建议缩小时间范围、增加过滤条件,或先让 Agent 解释查询计划和可能的性能风险。
如果你还不确定是否值得沉淀成任务,也可以先追问:
场景四:把查询沉淀为 Studio 任务草稿
当一个查询需要反复执行,或者后续可能进入调度,就可以让 Agent 创建 Studio 任务草稿。
推荐提问:
创建后应检查:
- 任务是否出现在指定任务目录下
- 任务状态是否为未调度
- SQL 是否符合预期
- SQL 是只读查询、建表、插入还是覆盖写入
- 是否引用了正确的 catalog、schema 和表
草稿任务不会自动运行,但如果 SQL 是建表或写入型 SQL,后续手动运行或发布后会真正影响数据。
场景五:让 Agent 解释任务草稿
创建任务草稿后,可以继续让 Agent 解释任务内容和风险点。
推荐提问:
适合获得的信息:
- SQL 类型
- 输入表和输出表
- 运行后是否会创建或写入数据
- 是否需要配置任务依赖
- 是否需要补充数据质量检查
- 是否适合发布为周期任务
这个场景适合在任务从草稿进入运行或发布之前使用。
场景六:查看作业历史和运行状态
如果已经执行过 SQL 或任务,可以让 Agent 帮助查看作业历史和运行状态。
推荐提问:
适合获得的信息:
- 最近作业运行情况
- 成功、失败、运行中数量
- 失败作业 ID
- 错误摘要
- 是否需要进一步查看 SQL Profile 或日志
如果要进一步诊断某个失败作业,可以继续追问:
场景七:查询 MCP / CLI / SDK 配置方式
Data Engineering Agent 也适合用来查询 Lakehouse 外部集成方式,例如 MCP Server、CLI、JDBC、Python SDK 等。
推荐提问:
适合获得的信息:
- MCP Server 的入口和用途
- CLI / SDK 连接方式
- 认证和权限要求
- 常见配置错误
- 相关产品文档入口
这类问题通常是指导型,不会直接修改环境。
场景八:让 Agent 做操作前检查
在执行创建、发布、重跑、补数、下线、删除等高影响操作前,可以先让 Agent 做检查。
推荐提问:
适合获得的信息:
- 任务是否已发布
- 是否存在下游依赖
- 是否有运行历史
- 是否属于任务组或管道链路
- 操作可能影响哪些业务产出
- 是否建议继续操作
删除类操作是否可以由 Agent 直接完成,取决于当前工具开放范围。如果 Agent 无法直接删除,应在产品界面中手动操作,并让 Agent 辅助确认影响范围。
基础使用建议
刚开始使用 Data Engineering Agent 时,建议遵循以下顺序:
- 先问能力范围,了解它能做什么
- 先做只读探查,理解表结构和样例数据
- 再做只读查询,验证 SQL 和结果
- 再创建任务草稿,沉淀可复用逻辑
- 在 IDE 中检查任务目录、SQL 类型和影响范围
- 发布、调度、重跑、补数等操作前先让 Agent 做影响检查
低风险操作适合直接使用自然语言完成;高影响操作应先看影响范围,再确认执行。
