把数据质量当成一门学问来研究，就能搞清楚它到底是个什么东西

把数据质量当成一门学问来研究，就能搞清楚它到底是个什么东西。国际数据管理协会给DQ下了个定义，意思是既要管结果，还要管怎么到那个结果。我们可以从用户、数据本身、约束关系还有过程这四个视角来看，数据质量其实就是符合预期的程度、能被正确使用的状态，以及规则被遵守的情况。衡量数据好不好有五个维度，但是我们公司内部最看重的是完整性、准确性、一致性和及时性这四大硬指标。要想让数据质量真正提升，就得走通从需求到监控的一整套路。很多团队总是喜欢事后救火，结果问题越来越多。最好的办法是在PRD阶段就把质量规则写进需求说明书里，让开发、测试还有业务的人都在上面签字确认，这样才能从根上堵住“垃圾数据”的产生。在采集阶段，可以给每条数据都过一道“安检门”。比如在ETL或者数据集成的环节，先用抽样和规则引擎做个批量质检，先判断这批数据的质量区间，再决定要不要逐条细查。这样既省资源，时效也能跟上。到了清洗阶段，就得内外兼顾了。内部的数据直接让业务梳理好规则去处理；外部的数据先采样一下，再用关联算法自动发现规律，把这些规则沉淀成“第三方数据检核规则库”，以后接同类数据就能秒级比对了。数据存到仓库里的时候，也得给每张表装个“质量评分卡”。大家可以在这上面实时看到完整性、准确性这些维度的达标率，有问题直接共享给同事就行。使用的时候把指标做成仪表盘，一旦关键KPI跌破了红线，系统会自动推送警报，负责人手机上也会收到短信或邮件，保证问题当天就能解决。反馈阶段要搞闭环思维。问题来了先定位责任人，整改完了要验证效果，不行就回滚重新设计规则。对于历史数据这种老账不能只靠单一的清洗脚本，得“技术+人工”双管齐下。脚本负责批量修正大错，人工负责补录细节，最后再用对比表确认一下准不准。现在的数据要走五步闭环：发现问题、定位责任人、制定方案、执行清洗、效果验证，这五个动作全部在线上留痕。未来的数据得“标准先行”。趁着系统改造或者新建项目的机会，一次性把标准、模型和血缘关系图都落地好。质量监控的核心指标有好几个：接入条数波动、源系统表结构变更、计算延迟、维表新增值未同步还有主键外键重复检查等等。分析报告要用双维度呈现。全景图里能看到各个系统占比和问题总数；深析图里能看到各种检核方法的数量和质量规则的总数。最后把质量纳入绩效才是关键。制定一个动态的分数权重机制：哪项指标不行就把哪项的权值调高；分数直接挂钩个人KPI，这样“数据不好用”就真的会让责任人心里疼了。