Data Engineering Agent Pipeline 上线检查清单
Pipeline 上线前,应确认任务代码、目录、调度、依赖、运行影响和回滚方式都已经清楚。上线检查的目的不是阻碍发布,而是避免任务发布后才发现写错表、依赖缺失、计算集群不对或调度时间错误。
本清单适用于 SQL、Python、Shell、JDBC、组合任务等进入周期运行前的检查。
上线前检查流程
推荐按以下顺序检查:
- 检查任务草稿
- 检查数据影响
- 检查目录和命名
- 检查调度配置
- 检查上下游依赖
- 检查计算资源
- 检查运行和回滚方案
- 确认发布
任务草稿检查
| 检查项 | 说明 |
|---|---|
| 任务名称 | 是否符合命名规范 |
| 任务目录 | 是否在正确的业务域、项目或生产目录下 |
| 任务类型 | SQL、Python、Shell、JDBC 或组合任务是否正确 |
| 代码内容 | 是否和方案一致 |
| 参数 | 是否存在环境、日期、分区等参数 |
| 保存状态 | 是否已保存最新版本 |
推荐提问:
数据影响检查
上线前必须确认任务运行后会不会改变数据。
| 检查项 | 风险 |
|---|---|
| 是否只读 | 只读任务通常风险较低 |
| 是否建表 | 需要确认目标表名和 schema |
| 是否追加写入 | 需要确认是否会重复写入 |
| 是否覆盖分区 | 需要确认分区范围 |
| 是否删除或更新 | 属于高影响操作 |
| 是否幂等 | 决定失败后能否安全重跑 |
推荐提问:
目录和命名检查
Pipeline 上线前,任务应放在稳定目录中,不要留在临时目录或个人测试目录。
检查项:
- 是否位于生产任务目录
- 是否和同一管道的任务放在一起
- 是否与测试任务隔离
- 任务名称是否包含业务含义
- 多层任务是否能看出顺序和分层
示例:
调度配置检查
发布前应确认调度配置,而不是只保存配置。
| 检查项 | 说明 |
|---|---|
| Cron | 是否符合预期运行时间 |
| 时区 | 是否和业务日期一致 |
| 重试策略 | 失败后是否自动重试 |
| 超时时间 | 是否符合数据量和资源预期 |
| 是否立即运行 | 发布后是否会立即触发 |
| 下一次运行时间 | 是否和预期一致 |
推荐提问:
依赖关系检查
多任务 Pipeline 必须检查上下游依赖。
检查项:
- Gold / DWS / ADS 是否依赖上游成功
- 是否存在跨目录或跨项目依赖
- 上游失败时下游是否会停止
- 是否有循环依赖
- 是否有任务组或组合任务
推荐提问:
计算资源检查
发布前应确认任务使用的 VCluster。
检查项:
- VCluster 是否正确
- 集群是否可用
- 资源是否满足预估数据量
- 是否会和其它任务抢占资源
- 是否需要避开高峰期
如果 Agent 前后返回的 VCluster 不一致,应重新读取任务详情再发布。
推荐提问:
发布前确认
发布前建议让 Agent 输出一份最终确认信息:
确认无误后,再发布。
推荐提问:
上线后观察
发布后不要立即结束,应观察最近几次运行。
检查项:
- 是否按计划触发
- 是否成功运行
- 运行耗时是否合理
- 是否产生预期数据
- 下游任务是否按顺序运行
- 是否出现超时、空结果或数据波动
推荐提问:
相关文档
联系我们
