Data Engineering Agent DQC 数据质量规则指南

本文介绍如何使用 Data Engineering Agent 查看、创建、复核和清理 DQC 数据质量规则。重点覆盖规则元数据本身,不覆盖规则执行后的告警联动和生产阻塞策略全景。

先探索,再创建规则

DQC 场景通常不适合一开始就直接创建规则。

更自然的方式通常是:

  • 先查看当前表是否已有规则
  • 先确认规则类型、强弱级别和触发方式是否合适
  • 再创建测试规则或正式规则

这类问题更适合这样起手:

  • 帮我先看一下这张表当前有没有 DQC 规则。
  • 帮我先判断这个场景更适合弱规则还是强规则。
  • 帮我先看一下现有规则里有没有重复或相近规则。

当检查对象、规则类型和触发方式都清楚后,再进入创建会更稳。

能做什么

基于实际操作,Data Engineering Agent 至少可以辅助完成以下动作:

  • 查看某张表当前是否已有 DQC 规则
  • 创建新的 DQC 规则
  • 说明规则类型、检查对象、阈值、强弱级别和触发方式
  • 删除测试规则

这类操作通常修改的是治理元数据,而不是业务数据本身。

先查现有规则

在新增规则前,建议先查看当前表是否已经有规则,避免重复创建。

推荐提问:

如果返回为空,应解释为“当前没有规则”,而不是功能异常。

测试规则示例

在实际验证中,曾为表:

public.demo_xe_sales

创建一个测试规则,配置如下:

字段
规则类型
table_count
table_count
检查对象
public.demo_xe_sales
public.demo_xe_sales
阈值条件行数
> 0
> 0
强弱/阻塞级别弱规则,
level=0
level=0
触发方式
REST
REST
,手动触发

这个样例说明:

  • DQC 可以使用表级计数类规则
  • 可以配置为非阻塞级别
  • 可以使用手动触发方式,而不是自动阻塞调度

创建规则时要说明什么

为了避免误创建,提问时应明确:

  • 规则名称
  • 检查对象
  • 规则类型
  • 阈值
  • 强弱/阻塞级别
  • 触发方式
  • 是否只是测试规则
  • 是否允许立即执行

推荐提问:

创建后必须复核

规则创建成功后,不应只看“已创建”提示,而应继续复核:

  • 规则 ID
  • 规则名称
  • 规则类型
  • 检查对象
  • 阈值条件
  • 强弱/阻塞级别
  • 触发方式

如果是测试规则,还应确认:

  • 未绑定生产任务
  • 未自动发布
  • 未立即执行

删除测试规则

测试规则验证完成后应及时清理,避免污染正式治理规则集。

推荐提问:

删除后,应再次查询并确认该表相关规则为空,或确认只剩下正式规则。

实际操作中的结论

基于已完成的验证,可以明确写入文档的结论包括:

  • DQC 规则可以先按只读方式查询是否存在
  • 可以创建弱规则、非阻塞规则
  • 触发方式可以配置为
    REST
    REST
    手动触发
  • 创建规则不会直接修改业务表数据
  • 测试规则可以在验证后删除,并通过再次查询确认清理结果

适合优先建设的规则

如果团队刚开始使用 DQC,建议优先从简单规则开始:

  • 行数大于 0
  • 关键字段非空
  • 主键或业务键去重
  • 数值范围检查

先把低争议、低风险、容易解释的规则建起来,再逐步扩展到更复杂的 SQL 规则。

相关文档

联系我们
预约咨询
微信咨询
电话咨询
邮件咨询