Data Engineering Agent 常用提问模板
本文提供 Data Engineering Agent 的常用提问模板。你可以直接复制模板,把表名、任务名、字段名、任务目录和时间范围替换成自己的业务对象。涉及调度发布、重跑补数、数据质量规则创建、数据源同步等变更类操作时,应先让 Agent 输出影响范围并请求确认。
完整执行类提问通常包含六类信息:
- 目标:要查询、建模、创建任务、配置调度、发布、诊断还是治理
- 对象:涉及哪个 catalog、schema、表、任务、任务组或作业实例
- 位置:创建 Studio 任务时,明确已有任务目录或文件夹
- 范围:时间范围、分区范围、业务过滤条件、是否包含历史数据
- 产出:只要方案、只创建草稿、直接查询、创建目标表、发布调度还是返回诊断报告
- 约束:是否允许执行查询、是否允许建表写入、是否允许发布、是否需要先确认
但这并不意味着所有用户都需要一开始就把这些信息一次说全。
更自然的方式通常是:
- 先用探索性问题确认对象和范围
- 再用完整执行类问题推动任务真正落地
先探索,再执行
下面这些问题更适合作为第一句,用来帮助 Agent 把问题提清楚。
探索当前环境和对象
请先查看当前工作空间里有哪些数据表、Studio 任务目录和最近运行过的任务。只做只读探查,不创建任务,不修改配置。
探索某个需求该从哪里开始
我想做一个订单日报,请先帮我看看当前有哪些表和现有任务可能相关,再告诉我下一步更适合先做查询、建草稿任务,还是先确认指标口径。
探索任务是否可复用
请帮我看看当前任务目录里有没有和
{需求}
{需求}
相关的现成任务可以复用。如果有,请说明任务名称、目录、当前状态和是否已发布。先不要创建新任务。
探索当前任务还缺什么
请帮我看看任务
{task_name}
{task_name}
现在还缺哪些配置,才能进入执行或发布阶段。先不要修改配置。
探索最近一次运行情况
请帮我看看任务
{task_name}
{task_name}
最近一次运行状态怎么样。如果有失败或超时,再告诉我下一步应该查哪个实例或日志。
先确认 Agent 能做什么
适合第一次进入 Data Engineering Agent,或者不确定当前环境开放了哪些工具和权限时使用。
请说明你当前可以帮助我完成哪些数据工程工作,哪些操作只会读取信息,哪些操作会修改 Studio 任务、调度配置、数据源或数据表。请区分"可以直接执行"、"需要我确认后执行"和"需要我在界面手动完成"。
如果要确认当前上下文:
请先查看当前工作空间、可用的 catalog / schema、Studio 任务目录和可用工具。只做只读探查,不创建任务,不修改配置。
临时取数
适合快速确认一个数据结果,不需要沉淀为周期任务。
帮我查询
{schema}.{table}
{schema}.{table}
在
{时间范围}
{时间范围}
内,按
{维度}
{维度}
统计
{指标}
{指标}
。只执行只读查询,不创建任务,不写入表。
示例:
帮我查询
public.demo_xe_sales
public.demo_xe_sales
最近 7 天每天各商品的销售额和订单数。只执行只读查询,不创建任务,不写入表。
解释表结构和字段含义
适合接手陌生表,或者字段名相似、容易误用的场景。
请查看
{schema}.{table}
{schema}.{table}
的表结构和少量样例数据,帮我解释每个字段可能的业务含义,并指出哪些字段容易混淆。不要创建任务,不要写入数据。
如果你已经知道业务口径,可以补充:
{field_a}
{field_a}
表示下单金额,
{field_b}
{field_b}
表示退款后净额。本次统计销售额请使用
{field_b}
{field_b}
。请基于这个口径生成查询 SQL。
指标规范设计
适合在建模和开发前统一业务口径,避免后续任务、看板和分析结果口径不一致。
请基于
{schema}.{table}
{schema}.{table}
做一次指标规范设计。先只做只读探查,查看表结构和少量样例数据;然后识别维度字段、指标字段、时间字段、过滤字段和系统字段;再设计一组核心指标,说明指标名称、业务定义、计算逻辑、统计粒度、可用维度和口径风险。不要创建任务,不要写入表,不要修改配置。
如果业务口径容易混淆,可以追问:
请检查这些指标中最容易产生口径歧义的地方,重点关注金额字段、日期字段、ID 字段、状态字段和统计粒度。请输出需要业务确认的问题清单。
创建 SQL 草稿任务
适合把一段查询或转换逻辑沉淀为 Studio 任务,但暂时不发布。
创建任务时要明确任务目录,不要让 Agent 自行猜测目录。如果目标目录尚未创建,建议先在 Studio 任务树中创建目录,再让 Agent 创建任务草稿。
基于
{schema}.{source_table}
{schema}.{source_table}
创建一个 SQL 任务草稿,任务名为
{task_name}
{task_name}
,创建到 Studio 任务目录
{任务目录}
{任务目录}
下。逻辑是
{转换或汇总逻辑}
{转换或汇总逻辑}
。只创建草稿,不执行 SQL,不创建目标表,不发布调度。如果目录不存在,请先停止并告诉我,我会先在 Studio 中创建目录。创建前请先说明任务名称、任务目录、SQL 类型和影响范围,并请求我确认。
示例:
基于
public.demo_xe_sales
public.demo_xe_sales
创建一个 SQL 任务草稿,任务名为
sales_product_daily_summary
sales_product_daily_summary
,创建到 Studio 任务目录
销售分析/日汇总
销售分析/日汇总
下。如果目录不存在,请先停止并告诉我,我会先在 Studio 中创建目录。按
sale_date
sale_date
和
product_name
product_name
汇总最近 7 天销售额、订单数和客单价。只创建草稿,不执行 SQL,不创建目标表,不发布调度。创建前请先说明任务名称、任务目录、SQL 类型和影响范围,并请求我确认。
如果只是测试功能,可以使用临时目录和更保守的约束:
请在 Studio 任务目录
测试任务/临时开发
测试任务/临时开发
下创建一个 SQL 草稿任务,任务名为
{task_name}
{task_name}
。只生成草稿,不执行 SQL,不配置调度,不发布。如果目录不存在,请停止并告诉我,我会先在 Studio 中创建目录。
复核草稿任务
适合任务创建后,检查 Agent 生成的 SQL 是否符合预期。
请查看任务
{task_id 或 task_name}
{task_id 或 task_name}
的草稿内容,返回任务目录、任务类型、SQL 摘要、输入表、输出表、是否会写入数据、是否已配置调度、是否已发布。不要修改任务。
如果要让 Agent 帮你解释 SQL:
请逐段解释任务
{task_name}
{task_name}
的 SQL 逻辑,说明每个 CTE / 子查询的作用、聚合粒度、过滤条件和可能的数据质量风险。不要执行任务,不要修改任务。
创建分层数据管道草稿
适合让 Agent 先生成数仓分层方案,再创建多个任务草稿。
基于
{schema}.{source_table}
{schema}.{source_table}
设计一个
{Bronze/Silver/Gold 或 ODS/DWD/DWS/ADS}
{Bronze/Silver/Gold 或 ODS/DWD/DWS/ADS}
分层方案。
{分层要求}
{分层要求}
。请先展示方案和每层输入输出,再创建 SQL 草稿任务。所有任务创建到 Studio 任务目录
{任务目录}
{任务目录}
下。如果目录不存在,请先停止并告诉我,我会先在 Studio 中创建目录。不要发布调度,不要执行写入 SQL。
示例:
基于
public.demo_xe_sales
public.demo_xe_sales
设计一个小型 Silver / Gold 分层方案。Silver 层做字段标准化和基础清洗,Gold 层按日期和商品汇总最近 7 天销售额、订单数和客单价。请先展示方案和每层输入输出,再创建两个 SQL 草稿任务。所有任务创建到 Studio 任务目录
销售分析/SilverGold草稿
销售分析/SilverGold草稿
下。如果目录不存在,请先停止并告诉我,我会先在 Studio 中创建目录。不要发布调度,不要执行写入 SQL。
创建组合任务
适合需要创建多节点任务、查看画布结构或验证任务组相关能力的场景。
如果你要创建的是组合任务本身:
请创建一个组合任务草稿,任务名为
{task_name}
{task_name}
,创建到 Studio 任务目录
{任务目录}
{任务目录}
下。只创建对象,不执行、不发布。创建后请返回任务 ID、目录、当前 DAG 节点数量和是否已发布。
如果你希望这个对象作为任务组处理,应说清楚:
请创建一个组合任务,并说明
任务组
任务组
字段是选择“是”还是“否”,以及选择后表单中还需要补哪些字段。先不要提交创建。
如果你要的是在组合任务中新增节点并绑定依赖,应明确要求复核画布:
请在组合任务
{task_id 或 task_name}
{task_id 或 task_name}
中新增两个节点,并配置第二个节点依赖第一个节点。完成后请返回节点清单和依赖边,并明确说明 DAG 是否为空。不要执行、不要发布。
复核组合任务和 DAG
适合组合任务或 Flow 创建后,确认节点和依赖是否真的落到画布中。
请检查组合任务
{task_id 或 task_name}
{task_id 或 task_name}
的实际 DAG。请返回节点数量、节点名称、节点类型、每个节点的 SQL 或代码摘要,以及节点之间的依赖边。请明确说明 DAG 是否为空。不要执行、不要发布、不要修改配置。
如果你怀疑 Agent 只创建了对象,但没有真正落图:
请不要只返回“已创建成功”。请以 Studio 画布的实际结果为准,说明是否真的看到了节点和连线。
从指标到数仓建设
适合已经完成指标口径设计,需要把指标沉淀为 Silver / Gold 或 DWD / DWS 任务链路的场景。
请基于
{schema}.{table}
{schema}.{table}
设计指标到数仓建设方案。先只做只读探查,识别字段角色和核心指标;然后设计 Silver / Gold 分层模型,说明每层输入、输出、字段处理逻辑、指标口径和口径风险。不要创建任务,不要执行 SQL。
如果方案确认后需要生成 SQL:
请基于上述方案输出完整 SQL,包括 Silver 明细表、Gold 日汇总表和 Gold 排行表的建表 SQL与写入 SQL。只输出 SQL,不创建任务,不执行 SQL,不发布调度。
如果需要创建 Studio 草稿任务:
确认创建 Studio SQL 草稿任务。任务目录为
{任务目录}
{任务目录}
。请先列出任务清单、输入表、输出表、依赖关系、SQL 类型和写入影响,并请求我确认。只创建草稿,不执行 SQL,不发布调度。如果目录不存在,请先停止并告诉我,我会先在 Studio 中创建目录。
配置调度和依赖
适合草稿任务已经检查通过,需要进入周期运行前的配置阶段。该类操作会修改任务配置或发布状态,应先确认影响范围。
请把任务
{task_name}
{task_name}
配置为
{调度周期}
{调度周期}
运行,失败重试
{次数}
{次数}
次,每次间隔
{时间}
{时间}
。如果需要修改调度、依赖或发布任务,请先展示将修改的配置并请求我确认。
示例:
请把任务
gold_product_daily_summary
gold_product_daily_summary
配置为每天凌晨 2 点运行,依赖
silver_order_clean
silver_order_clean
成功后触发,失败重试 2 次,每次间隔 10 分钟。发布前请先展示将修改的调度配置和依赖关系,并请求我确认。
如果只想保存调度配置、不想进入调度系统,应明确说明:
请为任务
{task_id}
{task_id}
配置调度参数,但先不要发布任务。要求:
{调度周期}
{调度周期}
,失败重试
{次数}
{次数}
次,超时时间
{分钟}
{分钟}
分钟,依赖
{依赖任务或无依赖}
{依赖任务或无依赖}
。不执行任务、不发布、不立即运行。配置前请先说明将修改哪些配置、是否会进入调度系统、是否会产生运行实例,并请求我确认。
保存配置后,建议继续确认:
请返回当前任务状态、Cron、重试、超时、VCluster、是否已发布、是否有下一次计划运行时间。请说明保存调度配置和发布任务的区别。
发布前检查
适合任务即将上线前,让 Agent 帮助做最后检查。
请检查任务
{task_name}
{task_name}
是否具备上线条件,包括 SQL 类型、目标表、调度配置、依赖关系、重试策略、计算集群、最近运行历史和下游影响。不要修改配置,只返回检查结果和风险建议。
如果是数据产出任务,可以补充:
请特别检查运行后是否会创建、插入或覆盖表,以及是否需要补充数据质量规则。
发布前应单独确认调度影响:
请准备发布任务
{task_id}
{task_id}
到调度系统。发布前请先说明任务名称、任务目录、SQL 类型、Cron、重试、超时、VCluster、依赖关系、发布后是否会立即运行、下一次计划运行时间,以及如何暂停或取消发布。请先请求我确认,不要直接发布。
确认发布时使用:
确认发布任务
{task_id}
{task_id}
。发布后请返回发布状态、当前版本和下一次计划运行时间。不要手动运行任务。
如果只是验证调度流程,可以补充:
这是测试任务。发布成功后请不要手动运行;返回发布状态后,我会立即要求取消发布。
查看任务状态和运行历史
适合确认任务是否已发布、是否运行过、是否有下一次计划运行。
请查看任务
{task_id 或 task_name}
{task_id 或 task_name}
的当前状态,返回任务目录、任务类型、是否已发布、当前版本、最近运行记录、下一次计划运行时间和最近一次失败原因。不要修改配置。
如果只想确认调度状态:
请只检查任务
{task_id}
{task_id}
的发布状态和调度信息,返回发布状态、Cron、VCluster 和下一次计划运行时间。不要发布、取消发布或执行任务。
取消发布和清理测试任务
适合任务已经发布,但需要停止后续计划触发或清理测试产物。
取消发布前先确认影响:
请取消发布任务
{task_id}
{task_id}
,使用
undeploy
undeploy
从调度系统移除。不要删除任务草稿,不执行任务,不影响其他任务。操作前请说明将执行的动作、是否会取消下一次计划运行、是否保留任务草稿,并请求我确认。
确认取消发布:
确认执行
undeploy
undeploy
,只取消发布任务
{task_id}
{task_id}
,不删除草稿、不执行任务、不影响其他任务。完成后请返回当前发布状态和下一次计划运行是否已取消。
清理测试任务前:
请检查任务
{task_id}
{task_id}
是否已发布。如果已发布,请先取消发布;确认任务已从调度系统移除后,再告诉我可以从界面删除草稿。不要删除其它任务。
清理测试任务时建议在界面中完成删除,并确认:
我已经在界面删除测试任务
{task_id}
{task_id}
。请帮我确认任务树中是否还存在该任务名称或任务 ID。
复核 VCluster 和运行影响
适合调度发布前确认任务实际使用的计算集群和运行影响。
请查看任务
{task_id}
{task_id}
的当前任务详情,返回 Schema、VCluster、Cron、重试次数、超时时间、是否已发布、下一次计划运行时间。不要修改配置。
如果 Agent 前后返回的 VCluster 不一致,可以追问:
你前后返回的 VCluster 不一致。请重新读取任务详情,并说明任务发布后实际会使用哪个 VCluster 运行。不要发布或执行任务。
如果 SQL 是只读查询,也建议确认:
请说明这个任务运行后是否只会读取数据,是否会创建、插入、更新、删除或覆盖任何表。请基于 SQL 内容判断。
运维诊断
适合任务失败、超时、结果为空或产出异常时使用。
请分析作业实例
{job_id 或 instance_id}
{job_id 或 instance_id}
的失败原因,重点查看错误日志、SQL Profile、Stage / Operator 信息和上游依赖。请返回根因判断、影响范围和修复建议。不要重跑任务,除非我确认。
如果不知道具体实例,可以先问:
请查看最近 24 小时任务
{task_name}
{task_name}
的运行情况。如果有失败或超时,请列出实例 ID、失败时间、错误摘要和建议下一步。
如果已经有运行实例和执行实例,可以直接诊断:
请诊断任务
{task_id}
{task_id}
的失败运行。运行实例 ID 是
{schedule_instance_id}
{schedule_instance_id}
,执行实例 ID 是
{execute_instance_id}
{execute_instance_id}
。请返回运行状态、错误摘要、根因判断、证据、影响范围、是否建议重跑和修复建议。不要发布、不要重跑、不要修改任务。
重跑前建议先问:
请判断这个失败任务是否适合重跑。请先检查根因是否已修复、是否有部分写入、是否影响下游任务、重跑是否会造成重复数据。不要直接重跑。
数据质量规则建议
适合上线前或数据异常排查时使用。建议先让 Agent 输出规则建议;创建、修改或删除规则前,应确认规则类型、阻塞行为和影响范围。
请基于
{schema}.{table}
{schema}.{table}
的表结构和业务含义,设计数据质量检查规则。重点关注非空、唯一性、金额范围、日期分区完整性、枚举值合法性和数据量波动。先给出规则建议,不要创建规则。
如果确认要创建规则,可以继续:
确认创建这些数据质量规则。创建前请说明强规则和弱规则的区别,以及失败后是否会阻塞任务。
如果你要先查询现有规则:
请只做只读操作:列出
{schema}.{table}
{schema}.{table}
相关的 DQC 数据质量规则,或者说明当前没有规则。请返回规则名称、规则类型、检查对象、强弱/阻塞级别、触发方式。不要创建、修改或删除任何规则。
如果你要创建一个低风险测试规则:
请为
{schema}.{table}
{schema}.{table}
创建一个仅用于测试的 DQC 规则。规则名为
{rule_name}
{rule_name}
。要求:检查
{规则条件}
{规则条件}
,使用
{弱规则/强规则}
{弱规则/强规则}
,触发方式选择
{REST/手动}
{REST/手动}
。不要绑定到生产任务,不执行规则,不发布调度,不修改数据。创建后返回规则 ID、规则类型、检查对象、阈值、强弱/阻塞级别、触发方式。
如果你要删除测试规则并确认清理结果:
请删除刚才创建的测试 DQC 规则,规则 ID 为
{rule_id}
{rule_id}
。只删除这个测试规则,不删除其它规则。删除后请再次查询
{schema}.{table}
{schema}.{table}
相关 DQC 规则,确认是否已清理。
运行监控和空态解释
适合想知道“为什么监控页没有数据”或想先确认是否真的有实例可诊断的场景。
请只做只读操作:查看当前工作空间最近 24 小时的任务运行监控信息。请返回最近运行的任务/实例、状态分布、是否有失败实例、是否有补数任务,以及可以继续查看哪些详情。不要重跑、不要终止、不要标记成功失败、不要创建补数。
如果最近 24 小时为空:
请把运行监控范围扩大到最近 30 天,查看是否存在任务运行实例、失败实例、调度实例或补数任务。如果仍然为空,请说明这是因为没有运行历史,还是因为查询范围或工作空间选择不正确。不要执行任何操作。
如果想判断空态是不是正常:
请解释为什么当前工作空间最近 24 小时或 30 天没有任何运行实例。请区分“没有运行历史”“任务未发布”“查询时间范围不对”这几种情况。不要执行任何操作。
数据源和同步排查
适合数据接入、同步延迟或同步失败场景。数据源创建、同步任务创建和同步配置修改属于变更类操作,应先输出方案并请求确认。
请检查数据源
{datasource_name}
{datasource_name}
最近 24 小时的同步状态,包括同步延迟、失败记录、错误摘要和影响的目标表。不要修改同步配置,只返回诊断结果。
创建同步任务前可以问:
请基于
{source}
{source}
到
{target}
{target}
设计一个同步方案,说明适合全量、增量还是 CDC,同步频率如何设置,可能有哪些主键、时间字段和权限要求。先输出方案,不要创建任务。
MCP、CLI 和 SDK 配置查看
适合排查外部工具连接、自动化集成或本地开发环境配置问题。
请查看当前工作空间里 MCP Servers、CLI 或 SDK 相关配置项,说明它们分别适合哪些集成场景。只查看配置,不新增、不删除、不修改连接。
如果要准备接入方案:
我希望通过
{MCP / CLI / SDK}
{MCP / CLI / SDK}
集成 Data Engineering Agent 相关能力。请先说明需要哪些认证信息、网络条件、权限范围和安全注意事项。先输出接入清单,不修改任何配置。
高影响操作确认
删除、下线、补数、重跑、修改依赖、修改调度周期前,建议使用更严格的确认模板。删除类操作是否可由 Agent 直接完成,取决于当前工具开放范围;如果 Agent 不能直接删除,应在界面中手动操作。
我准备对
{对象}
{对象}
执行
{操作}
{操作}
。请先检查它是否已发布、是否有下游依赖、是否有运行历史、是否属于任务组、是否会影响业务产出。先返回影响范围,不要执行操作。
确认后再说:
确认执行,只操作
{对象}
{对象}
,不要修改其它对象。执行后请返回结果,并验证状态是否符合预期。
相关文档