Data Engineering Agent DQC 数据质量规则指南
本文介绍如何使用 Data Engineering Agent 查看、创建、复核和清理 DQC 数据质量规则。重点覆盖规则元数据本身,不覆盖规则执行后的告警联动和生产阻塞策略全景。
先探索,再创建规则
DQC 场景通常不适合一开始就直接创建规则。
更自然的方式通常是:
- 先查看当前表是否已有规则
- 先确认规则类型、强弱级别和触发方式是否合适
- 再创建测试规则或正式规则
这类问题更适合这样起手:
- 帮我先看一下这张表当前有没有 DQC 规则。
- 帮我先判断这个场景更适合弱规则还是强规则。
- 帮我先看一下现有规则里有没有重复或相近规则。
当检查对象、规则类型和触发方式都清楚后,再进入创建会更稳。
能做什么
基于实际操作,Data Engineering Agent 至少可以辅助完成以下动作:
- 查看某张表当前是否已有 DQC 规则
- 创建新的 DQC 规则
- 说明规则类型、检查对象、阈值、强弱级别和触发方式
- 删除测试规则
这类操作通常修改的是治理元数据,而不是业务数据本身。
先查现有规则
在新增规则前,建议先查看当前表是否已经有规则,避免重复创建。
推荐提问:
如果返回为空,应解释为“当前没有规则”,而不是功能异常。
测试规则示例
在实际验证中,曾为表:
创建一个测试规则,配置如下:
| 字段 | 值 |
|---|---|
| 规则类型 | |
| 检查对象 | |
| 阈值条件 | 行数 |
| 强弱/阻塞级别 | 弱规则, |
| 触发方式 | ,手动触发 |
这个样例说明:
- DQC 可以使用表级计数类规则
- 可以配置为非阻塞级别
- 可以使用手动触发方式,而不是自动阻塞调度
创建规则时要说明什么
为了避免误创建,提问时应明确:
- 规则名称
- 检查对象
- 规则类型
- 阈值
- 强弱/阻塞级别
- 触发方式
- 是否只是测试规则
- 是否允许立即执行
推荐提问:
创建后必须复核
规则创建成功后,不应只看“已创建”提示,而应继续复核:
- 规则 ID
- 规则名称
- 规则类型
- 检查对象
- 阈值条件
- 强弱/阻塞级别
- 触发方式
如果是测试规则,还应确认:
- 未绑定生产任务
- 未自动发布
- 未立即执行
删除测试规则
测试规则验证完成后应及时清理,避免污染正式治理规则集。
推荐提问:
删除后,应再次查询并确认该表相关规则为空,或确认只剩下正式规则。
实际操作中的结论
基于已完成的验证,可以明确写入文档的结论包括:
- DQC 规则可以先按只读方式查询是否存在
- 可以创建弱规则、非阻塞规则
- 触发方式可以配置为
手动触发REST - 创建规则不会直接修改业务表数据
- 测试规则可以在验证后删除,并通过再次查询确认清理结果
适合优先建设的规则
如果团队刚开始使用 DQC,建议优先从简单规则开始:
- 行数大于 0
- 关键字段非空
- 主键或业务键去重
- 数值范围检查
先把低争议、低风险、容易解释的规则建起来,再逐步扩展到更复杂的 SQL 规则。
相关文档
联系我们
