Data Engineering Agent 常用提问模板

本文提供 Data Engineering Agent 的常用提问模板。你可以直接复制模板，把表名、任务名、字段名、任务目录和时间范围替换成自己的业务对象。涉及调度发布、重跑补数、数据质量规则创建、数据源同步等变更类操作时，应先让 Agent 输出影响范围并请求确认。

完整执行类提问通常包含六类信息：

目标：要查询、建模、创建任务、配置调度、发布、诊断还是治理
对象：涉及哪个 catalog、schema、表、任务、任务组或作业实例
位置：创建 Studio 任务时，明确已有任务目录或文件夹
范围：时间范围、分区范围、业务过滤条件、是否包含历史数据
产出：只要方案、只创建草稿、直接查询、创建目标表、发布调度还是返回诊断报告
约束：是否允许执行查询、是否允许建表写入、是否允许发布、是否需要先确认

但这并不意味着所有用户都需要一开始就把这些信息一次说全。

更自然的方式通常是：

先用探索性问题确认对象和范围
再用完整执行类问题推动任务真正落地

先探索，再执行

下面这些问题更适合作为第一句，用来帮助 Agent 把问题提清楚。

探索当前环境和对象

请先查看当前工作空间里有哪些数据表、Studio 任务目录和最近运行过的任务。只做只读探查，不创建任务，不修改配置。

探索某个需求该从哪里开始

我想做一个订单日报，请先帮我看看当前有哪些表和现有任务可能相关，再告诉我下一步更适合先做查询、建草稿任务，还是先确认指标口径。

探索任务是否可复用

请帮我看看当前任务目录里有没有和

{需求}

{需求}

相关的现成任务可以复用。如果有，请说明任务名称、目录、当前状态和是否已发布。先不要创建新任务。

探索当前任务还缺什么

请帮我看看任务

{task_name}

{task_name}

现在还缺哪些配置，才能进入执行或发布阶段。先不要修改配置。

探索最近一次运行情况

请帮我看看任务

{task_name}

{task_name}

最近一次运行状态怎么样。如果有失败或超时，再告诉我下一步应该查哪个实例或日志。

先确认 Agent 能做什么

适合第一次进入 Data Engineering Agent，或者不确定当前环境开放了哪些工具和权限时使用。

请说明你当前可以帮助我完成哪些数据工程工作，哪些操作只会读取信息，哪些操作会修改 Studio 任务、调度配置、数据源或数据表。请区分"可以直接执行"、"需要我确认后执行"和"需要我在界面手动完成"。

如果要确认当前上下文：

请先查看当前工作空间、可用的 catalog / schema、Studio 任务目录和可用工具。只做只读探查，不创建任务，不修改配置。

临时取数

适合快速确认一个数据结果，不需要沉淀为周期任务。

帮我查询

{schema}.{table}

{schema}.{table}

在

{时间范围}

{时间范围}

内，按

{维度}

{维度}

统计

{指标}

{指标}

。只执行只读查询，不创建任务，不写入表。

示例：

帮我查询

public.demo_xe_sales

public.demo_xe_sales

最近 7 天每天各商品的销售额和订单数。只执行只读查询，不创建任务，不写入表。

解释表结构和字段含义

适合接手陌生表，或者字段名相似、容易误用的场景。

请查看

{schema}.{table}

{schema}.{table}

的表结构和少量样例数据，帮我解释每个字段可能的业务含义，并指出哪些字段容易混淆。不要创建任务，不要写入数据。

如果你已经知道业务口径，可以补充：

{field_a}

{field_a}

表示下单金额，

{field_b}

{field_b}

表示退款后净额。本次统计销售额请使用

{field_b}

{field_b}

。请基于这个口径生成查询 SQL。

指标规范设计

适合在建模和开发前统一业务口径，避免后续任务、看板和分析结果口径不一致。

请基于

{schema}.{table}

{schema}.{table}

做一次指标规范设计。先只做只读探查，查看表结构和少量样例数据；然后识别维度字段、指标字段、时间字段、过滤字段和系统字段；再设计一组核心指标，说明指标名称、业务定义、计算逻辑、统计粒度、可用维度和口径风险。不要创建任务，不要写入表，不要修改配置。

如果业务口径容易混淆，可以追问：

请检查这些指标中最容易产生口径歧义的地方，重点关注金额字段、日期字段、ID 字段、状态字段和统计粒度。请输出需要业务确认的问题清单。

创建 SQL 草稿任务

适合把一段查询或转换逻辑沉淀为 Studio 任务，但暂时不发布。

创建任务时要明确任务目录，不要让 Agent 自行猜测目录。如果目标目录尚未创建，建议先在 Studio 任务树中创建目录，再让 Agent 创建任务草稿。

基于

{schema}.{source_table}

{schema}.{source_table}

创建一个 SQL 任务草稿，任务名为

{task_name}

{task_name}

，创建到 Studio 任务目录

{任务目录}

{任务目录}

下。逻辑是

{转换或汇总逻辑}

{转换或汇总逻辑}

。只创建草稿，不执行 SQL，不创建目标表，不发布调度。如果目录不存在，请先停止并告诉我，我会先在 Studio 中创建目录。创建前请先说明任务名称、任务目录、SQL 类型和影响范围，并请求我确认。

示例：

基于

public.demo_xe_sales

public.demo_xe_sales

创建一个 SQL 任务草稿，任务名为

sales_product_daily_summary

sales_product_daily_summary

，创建到 Studio 任务目录

销售分析/日汇总

销售分析/日汇总

下。如果目录不存在，请先停止并告诉我，我会先在 Studio 中创建目录。按

sale_date

sale_date

和

product_name

product_name

汇总最近 7 天销售额、订单数和客单价。只创建草稿，不执行 SQL，不创建目标表，不发布调度。创建前请先说明任务名称、任务目录、SQL 类型和影响范围，并请求我确认。

如果只是测试功能，可以使用临时目录和更保守的约束：

请在 Studio 任务目录

测试任务/临时开发

测试任务/临时开发

下创建一个 SQL 草稿任务，任务名为

{task_name}

{task_name}

。只生成草稿，不执行 SQL，不配置调度，不发布。如果目录不存在，请停止并告诉我，我会先在 Studio 中创建目录。

复核草稿任务

适合任务创建后，检查 Agent 生成的 SQL 是否符合预期。

请查看任务

{task_id 或 task_name}

{task_id 或 task_name}

的草稿内容，返回任务目录、任务类型、SQL 摘要、输入表、输出表、是否会写入数据、是否已配置调度、是否已发布。不要修改任务。

如果要让 Agent 帮你解释 SQL：

请逐段解释任务

{task_name}

{task_name}

的 SQL 逻辑，说明每个 CTE / 子查询的作用、聚合粒度、过滤条件和可能的数据质量风险。不要执行任务，不要修改任务。

创建分层数据管道草稿

适合让 Agent 先生成数仓分层方案，再创建多个任务草稿。

基于

{schema}.{source_table}

{schema}.{source_table}

设计一个

{Bronze/Silver/Gold 或 ODS/DWD/DWS/ADS}

{Bronze/Silver/Gold 或 ODS/DWD/DWS/ADS}

分层方案。

{分层要求}

{分层要求}

。请先展示方案和每层输入输出，再创建 SQL 草稿任务。所有任务创建到 Studio 任务目录

{任务目录}

{任务目录}

下。如果目录不存在，请先停止并告诉我，我会先在 Studio 中创建目录。不要发布调度，不要执行写入 SQL。

示例：

基于

public.demo_xe_sales

public.demo_xe_sales

设计一个小型 Silver / Gold 分层方案。Silver 层做字段标准化和基础清洗，Gold 层按日期和商品汇总最近 7 天销售额、订单数和客单价。请先展示方案和每层输入输出，再创建两个 SQL 草稿任务。所有任务创建到 Studio 任务目录

销售分析/SilverGold草稿

销售分析/SilverGold草稿

下。如果目录不存在，请先停止并告诉我，我会先在 Studio 中创建目录。不要发布调度，不要执行写入 SQL。

创建组合任务

适合需要创建多节点任务、查看画布结构或验证任务组相关能力的场景。

如果你要创建的是组合任务本身：

请创建一个组合任务草稿，任务名为

{task_name}

{task_name}

，创建到 Studio 任务目录

{任务目录}

{任务目录}

下。只创建对象，不执行、不发布。创建后请返回任务 ID、目录、当前 DAG 节点数量和是否已发布。

如果你希望这个对象作为任务组处理，应说清楚：

请创建一个组合任务，并说明

任务组

任务组

字段是选择“是”还是“否”，以及选择后表单中还需要补哪些字段。先不要提交创建。

如果你要的是在组合任务中新增节点并绑定依赖，应明确要求复核画布：

请在组合任务

{task_id 或 task_name}

{task_id 或 task_name}

中新增两个节点，并配置第二个节点依赖第一个节点。完成后请返回节点清单和依赖边，并明确说明 DAG 是否为空。不要执行、不要发布。

复核组合任务和 DAG

适合组合任务或 Flow 创建后，确认节点和依赖是否真的落到画布中。

请检查组合任务

{task_id 或 task_name}

{task_id 或 task_name}

的实际 DAG。请返回节点数量、节点名称、节点类型、每个节点的 SQL 或代码摘要，以及节点之间的依赖边。请明确说明 DAG 是否为空。不要执行、不要发布、不要修改配置。

如果你怀疑 Agent 只创建了对象，但没有真正落图：

请不要只返回“已创建成功”。请以 Studio 画布的实际结果为准，说明是否真的看到了节点和连线。

从指标到数仓建设

适合已经完成指标口径设计，需要把指标沉淀为 Silver / Gold 或 DWD / DWS 任务链路的场景。

请基于

{schema}.{table}

{schema}.{table}

设计指标到数仓建设方案。先只做只读探查，识别字段角色和核心指标；然后设计 Silver / Gold 分层模型，说明每层输入、输出、字段处理逻辑、指标口径和口径风险。不要创建任务，不要执行 SQL。

如果方案确认后需要生成 SQL：

请基于上述方案输出完整 SQL，包括 Silver 明细表、Gold 日汇总表和 Gold 排行表的建表 SQL与写入 SQL。只输出 SQL，不创建任务，不执行 SQL，不发布调度。

如果需要创建 Studio 草稿任务：

确认创建 Studio SQL 草稿任务。任务目录为

{任务目录}

{任务目录}

。请先列出任务清单、输入表、输出表、依赖关系、SQL 类型和写入影响，并请求我确认。只创建草稿，不执行 SQL，不发布调度。如果目录不存在，请先停止并告诉我，我会先在 Studio 中创建目录。

配置调度和依赖

适合草稿任务已经检查通过，需要进入周期运行前的配置阶段。该类操作会修改任务配置或发布状态，应先确认影响范围。

请把任务

{task_name}

{task_name}

配置为

{调度周期}

{调度周期}

运行，失败重试

{次数}

{次数}

次，每次间隔

{时间}

{时间}

。如果需要修改调度、依赖或发布任务，请先展示将修改的配置并请求我确认。

示例：

请把任务

gold_product_daily_summary

gold_product_daily_summary

配置为每天凌晨 2 点运行，依赖

silver_order_clean

silver_order_clean

成功后触发，失败重试 2 次，每次间隔 10 分钟。发布前请先展示将修改的调度配置和依赖关系，并请求我确认。

如果只想保存调度配置、不想进入调度系统，应明确说明：

请为任务

{task_id}

{task_id}

配置调度参数，但先不要发布任务。要求：

{调度周期}

{调度周期}

，失败重试

{次数}

{次数}

次，超时时间

{分钟}

{分钟}

分钟，依赖

{依赖任务或无依赖}

{依赖任务或无依赖}

。不执行任务、不发布、不立即运行。配置前请先说明将修改哪些配置、是否会进入调度系统、是否会产生运行实例，并请求我确认。

保存配置后，建议继续确认：

请返回当前任务状态、Cron、重试、超时、VCluster、是否已发布、是否有下一次计划运行时间。请说明保存调度配置和发布任务的区别。

发布前检查

适合任务即将上线前，让 Agent 帮助做最后检查。

请检查任务

{task_name}

{task_name}

是否具备上线条件，包括 SQL 类型、目标表、调度配置、依赖关系、重试策略、计算集群、最近运行历史和下游影响。不要修改配置，只返回检查结果和风险建议。

如果是数据产出任务，可以补充：

请特别检查运行后是否会创建、插入或覆盖表，以及是否需要补充数据质量规则。

发布前应单独确认调度影响：

请准备发布任务

{task_id}

{task_id}

到调度系统。发布前请先说明任务名称、任务目录、SQL 类型、Cron、重试、超时、VCluster、依赖关系、发布后是否会立即运行、下一次计划运行时间，以及如何暂停或取消发布。请先请求我确认，不要直接发布。

确认发布时使用：

确认发布任务

{task_id}

{task_id}

。发布后请返回发布状态、当前版本和下一次计划运行时间。不要手动运行任务。

如果只是验证调度流程，可以补充：

这是测试任务。发布成功后请不要手动运行；返回发布状态后，我会立即要求取消发布。

查看任务状态和运行历史

适合确认任务是否已发布、是否运行过、是否有下一次计划运行。

请查看任务

{task_id 或 task_name}

{task_id 或 task_name}

的当前状态，返回任务目录、任务类型、是否已发布、当前版本、最近运行记录、下一次计划运行时间和最近一次失败原因。不要修改配置。

如果只想确认调度状态：

请只检查任务

{task_id}

{task_id}

的发布状态和调度信息，返回发布状态、Cron、VCluster 和下一次计划运行时间。不要发布、取消发布或执行任务。

取消发布和清理测试任务

适合任务已经发布，但需要停止后续计划触发或清理测试产物。

取消发布前先确认影响：

请取消发布任务

{task_id}

{task_id}

，使用

undeploy

undeploy

从调度系统移除。不要删除任务草稿，不执行任务，不影响其他任务。操作前请说明将执行的动作、是否会取消下一次计划运行、是否保留任务草稿，并请求我确认。

确认取消发布：

确认执行

undeploy

undeploy

，只取消发布任务

{task_id}

{task_id}

，不删除草稿、不执行任务、不影响其他任务。完成后请返回当前发布状态和下一次计划运行是否已取消。

清理测试任务前：

请检查任务

{task_id}

{task_id}

是否已发布。如果已发布，请先取消发布；确认任务已从调度系统移除后，再告诉我可以从界面删除草稿。不要删除其它任务。

清理测试任务时建议在界面中完成删除，并确认：

我已经在界面删除测试任务

{task_id}

{task_id}

。请帮我确认任务树中是否还存在该任务名称或任务 ID。

复核 VCluster 和运行影响

适合调度发布前确认任务实际使用的计算集群和运行影响。

请查看任务

{task_id}

{task_id}

的当前任务详情，返回 Schema、VCluster、Cron、重试次数、超时时间、是否已发布、下一次计划运行时间。不要修改配置。

如果 Agent 前后返回的 VCluster 不一致，可以追问：

你前后返回的 VCluster 不一致。请重新读取任务详情，并说明任务发布后实际会使用哪个 VCluster 运行。不要发布或执行任务。

如果 SQL 是只读查询，也建议确认：

请说明这个任务运行后是否只会读取数据，是否会创建、插入、更新、删除或覆盖任何表。请基于 SQL 内容判断。

运维诊断

适合任务失败、超时、结果为空或产出异常时使用。

请分析作业实例

{job_id 或 instance_id}

{job_id 或 instance_id}

的失败原因，重点查看错误日志、SQL Profile、Stage / Operator 信息和上游依赖。请返回根因判断、影响范围和修复建议。不要重跑任务，除非我确认。

如果不知道具体实例，可以先问：

请查看最近 24 小时任务

{task_name}

{task_name}

的运行情况。如果有失败或超时，请列出实例 ID、失败时间、错误摘要和建议下一步。

如果已经有运行实例和执行实例，可以直接诊断：

请诊断任务

{task_id}

{task_id}

的失败运行。运行实例 ID 是

{schedule_instance_id}

{schedule_instance_id}

，执行实例 ID 是

{execute_instance_id}

{execute_instance_id}

。请返回运行状态、错误摘要、根因判断、证据、影响范围、是否建议重跑和修复建议。不要发布、不要重跑、不要修改任务。

重跑前建议先问：

请判断这个失败任务是否适合重跑。请先检查根因是否已修复、是否有部分写入、是否影响下游任务、重跑是否会造成重复数据。不要直接重跑。

数据质量规则建议

适合上线前或数据异常排查时使用。建议先让 Agent 输出规则建议；创建、修改或删除规则前，应确认规则类型、阻塞行为和影响范围。

请基于

{schema}.{table}

{schema}.{table}

的表结构和业务含义，设计数据质量检查规则。重点关注非空、唯一性、金额范围、日期分区完整性、枚举值合法性和数据量波动。先给出规则建议，不要创建规则。

如果确认要创建规则，可以继续：

确认创建这些数据质量规则。创建前请说明强规则和弱规则的区别，以及失败后是否会阻塞任务。

如果你要先查询现有规则：

请只做只读操作：列出

{schema}.{table}

{schema}.{table}

相关的 DQC 数据质量规则，或者说明当前没有规则。请返回规则名称、规则类型、检查对象、强弱/阻塞级别、触发方式。不要创建、修改或删除任何规则。

如果你要创建一个低风险测试规则：

请为

{schema}.{table}

{schema}.{table}

创建一个仅用于测试的 DQC 规则。规则名为

{rule_name}

{rule_name}

。要求：检查

{规则条件}

{规则条件}

，使用

{弱规则/强规则}

{弱规则/强规则}

，触发方式选择

{REST/手动}

{REST/手动}

。不要绑定到生产任务，不执行规则，不发布调度，不修改数据。创建后返回规则 ID、规则类型、检查对象、阈值、强弱/阻塞级别、触发方式。

如果你要删除测试规则并确认清理结果：

请删除刚才创建的测试 DQC 规则，规则 ID 为

{rule_id}

{rule_id}

。只删除这个测试规则，不删除其它规则。删除后请再次查询

{schema}.{table}

{schema}.{table}

相关 DQC 规则，确认是否已清理。

运行监控和空态解释

适合想知道“为什么监控页没有数据”或想先确认是否真的有实例可诊断的场景。

请只做只读操作：查看当前工作空间最近 24 小时的任务运行监控信息。请返回最近运行的任务/实例、状态分布、是否有失败实例、是否有补数任务，以及可以继续查看哪些详情。不要重跑、不要终止、不要标记成功失败、不要创建补数。

如果最近 24 小时为空：

请把运行监控范围扩大到最近 30 天，查看是否存在任务运行实例、失败实例、调度实例或补数任务。如果仍然为空，请说明这是因为没有运行历史，还是因为查询范围或工作空间选择不正确。不要执行任何操作。

如果想判断空态是不是正常：

请解释为什么当前工作空间最近 24 小时或 30 天没有任何运行实例。请区分“没有运行历史”“任务未发布”“查询时间范围不对”这几种情况。不要执行任何操作。

数据源和同步排查

适合数据接入、同步延迟或同步失败场景。数据源创建、同步任务创建和同步配置修改属于变更类操作，应先输出方案并请求确认。

请检查数据源

{datasource_name}

{datasource_name}

最近 24 小时的同步状态，包括同步延迟、失败记录、错误摘要和影响的目标表。不要修改同步配置，只返回诊断结果。

创建同步任务前可以问：

请基于

{source}

{source}

到

{target}

{target}

设计一个同步方案，说明适合全量、增量还是 CDC，同步频率如何设置，可能有哪些主键、时间字段和权限要求。先输出方案，不要创建任务。

MCP、CLI 和 SDK 配置查看

适合排查外部工具连接、自动化集成或本地开发环境配置问题。

请查看当前工作空间里 MCP Servers、CLI 或 SDK 相关配置项，说明它们分别适合哪些集成场景。只查看配置，不新增、不删除、不修改连接。

如果要准备接入方案：

我希望通过

{MCP / CLI / SDK}

{MCP / CLI / SDK}

集成 Data Engineering Agent 相关能力。请先说明需要哪些认证信息、网络条件、权限范围和安全注意事项。先输出接入清单，不修改任何配置。

高影响操作确认

删除、下线、补数、重跑、修改依赖、修改调度周期前，建议使用更严格的确认模板。删除类操作是否可由 Agent 直接完成，取决于当前工具开放范围；如果 Agent 不能直接删除，应在界面中手动操作。

我准备对

{对象}

{对象}

执行

{操作}

{操作}

。请先检查它是否已发布、是否有下游依赖、是否有运行历史、是否属于任务组、是否会影响业务产出。先返回影响范围，不要执行操作。

确认后再说：

确认执行，只操作

{对象}

{对象}

，不要修改其它对象。执行后请返回结果，并验证状态是否符合预期。

Data Engineering Agent 常用提问模板

先探索，再执行

探索当前环境和对象

探索某个需求该从哪里开始

探索任务是否可复用

探索当前任务还缺什么

探索最近一次运行情况

先确认 Agent 能做什么

临时取数

解释表结构和字段含义

指标规范设计

创建 SQL 草稿任务

复核草稿任务

创建分层数据管道草稿

创建组合任务

复核组合任务和 DAG

从指标到数仓建设

配置调度和依赖

发布前检查

查看任务状态和运行历史

取消发布和清理测试任务

复核 VCluster 和运行影响

运维诊断

数据质量规则建议

运行监控和空态解释

数据源和同步排查

MCP、CLI 和 SDK 配置查看

高影响操作确认

相关文档