把数据质量当成一门学问来研究,就能搞清楚它到底是个什么东西

把数据质量当成一门学问来研究,就能搞清楚它到底是个什么东西。国际数据管理协会给DQ下了个定义,意思是既要管结果,还要管怎么到那个结果。我们可以从用户、数据本身、约束关系还有过程这四个视角来看,数据质量其实就是符合预期的程度、能被正确使用的状态,以及规则被遵守的情况。衡量数据好不好有五个维度,但是我们公司内部最看重的是完整性、准确性、一致性和及时性这四大硬指标。 要想让数据质量真正提升,就得走通从需求到监控的一整套路。很多团队总是喜欢事后救火,结果问题越来越多。最好的办法是在PRD阶段就把质量规则写进需求说明书里,让开发、测试还有业务的人都在上面签字确认,这样才能从根上堵住“垃圾数据”的产生。 在采集阶段,可以给每条数据都过一道“安检门”。比如在ETL或者数据集成的环节,先用抽样和规则引擎做个批量质检,先判断这批数据的质量区间,再决定要不要逐条细查。这样既省资源,时效也能跟上。 到了清洗阶段,就得内外兼顾了。内部的数据直接让业务梳理好规则去处理;外部的数据先采样一下,再用关联算法自动发现规律,把这些规则沉淀成“第三方数据检核规则库”,以后接同类数据就能秒级比对了。 数据存到仓库里的时候,也得给每张表装个“质量评分卡”。大家可以在这上面实时看到完整性、准确性这些维度的达标率,有问题直接共享给同事就行。 使用的时候把指标做成仪表盘,一旦关键KPI跌破了红线,系统会自动推送警报,负责人手机上也会收到短信或邮件,保证问题当天就能解决。 反馈阶段要搞闭环思维。问题来了先定位责任人,整改完了要验证效果,不行就回滚重新设计规则。 对于历史数据这种老账不能只靠单一的清洗脚本,得“技术+人工”双管齐下。脚本负责批量修正大错,人工负责补录细节,最后再用对比表确认一下准不准。 现在的数据要走五步闭环:发现问题、定位责任人、制定方案、执行清洗、效果验证,这五个动作全部在线上留痕。 未来的数据得“标准先行”。趁着系统改造或者新建项目的机会,一次性把标准、模型和血缘关系图都落地好。 质量监控的核心指标有好几个:接入条数波动、源系统表结构变更、计算延迟、维表新增值未同步还有主键外键重复检查等等。 分析报告要用双维度呈现。全景图里能看到各个系统占比和问题总数;深析图里能看到各种检核方法的数量和质量规则的总数。 最后把质量纳入绩效才是关键。制定一个动态的分数权重机制:哪项指标不行就把哪项的权值调高;分数直接挂钩个人KPI,这样“数据不好用”就真的会让责任人心里疼了。