实现数据质量的前提就是数据本身是可靠和可信的。
导致数据质量低下的因素
组织缺乏对低质量数据影响的理解,缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。
所有组织都会遇到与数据质量有关的问题。数据质量需要跨职能的承诺和协调,数据质量管理不是一个项目,而是一项持续性的工作,长期成功取决于组织文化的改变和质量观念的建立。高质量数据本身不是目的,它只是组织获取成功的一种手段。
业务驱动因素
- 提高组织数据价值和数据利用的机会;
- 降低低质量数据导致的风险和成本;
- 提高组织效率和生产力;
- 保护和提高组织的声誉。【创机会、降成本、提效率、强声誉】
低质量数据造成的后果
- 无法正确开具发票;
- 增加客服电话量,降低解决问题的能力;
- 因错失商业机会造成收入损失;
- 影响并购后的整合进展;
- 增加受欺诈的风险;
- 由错误数据驱动的错误业务决策造成损失;
- 因缺乏良好信誉而导致业务损失。
数据质量管理的目标
- 根据数据消费者的需求,开发一种受管理的方法,使数据适合要求;
- 定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分;
- 定义和实施测量,监控和报告数据质量水平的过程。
数据质量管理的原则
- 重要性,根据数据的重要性以及数据不正确时的风险水平来制定改进的优先顺序;
- 全生命周期管理;
- 预防。重点应放在预防数据错误和降低数据可用性等;
- 根因修正,需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决;
- 治理,数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境;
- 标准驱动;
- 客观测量和透明度,数据质量水平需要得到客观、一致的测量;
- 嵌入业务流程,业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准;
- 系统强制执行,系统所有者必须让系统强制执行数据质量要求;
- 与服务水平关联,数据质量报告和问题管理应纳入服务水平协议(SLA)。
数据质量管理的活动
定义高质量数据
定义数据质量战略
- 识别关键数据;
- 识别已有规则和模式。
识别关键数据和业务规则
执行初始数据质量评估
- 确定问题并排定优先顺序;
- 执行问题根本原因分析。
确定改进方向并排定优先顺序
- 根据业务影响确定行动的优先级;
- 制定预防和纠正措施;
- 确认计划的行动。
定义数据质量改进目标
开发和部署数据质量操作
- 开发数据质量操作规程;
- 修正数据质量缺陷;
- 度量和监控数据质量;
- 报告数据质量水平和调查结果。
重要人物
Strong-Wang框架(1996)侧重于数据消费者对数据的看法
描述数据质量的4大类15个指标
内在数据质量
- 准确性
- 客观性
- 可信度
- 信誉度
场景数据质量
- 增值性
- 关联性
- 及时性
- 完整性
- 适量性
表达数据质量
- 可解释性
- 易理解性
- 表达一致性
- 简洁性
访问数据质量
- 可访问性
- 访问安全性
Thomas Redman
在《信息时代的数据质量》将一个数据项定义为“可表示的三元组”:一个实体属性域与值的集合。维度可以和数据的任何组成部分相关联:模型(实体和属性)及其值。定义了一类用于记录数据项规则的表达维度,在三个类别中,描述了20个维度:
- 数据模型
- 内容
- 详细程度
- 属性的精确度
- 构成
- 一致性
- 应变性
- 数据值
- 数据表达
Larry English
在《改善数据仓库和业务信息质量》提出两个类别:固有属性和实用特征
固有属性
- 定义的一致性
- 值域的完备性
- 有效性或业务规则的一致性
- 数据源的准确性
- 反映事实的准确性
- 精确性
- 非冗余性
- 冗余或分布数据的等效性
- 冗余或分布数据的并发性
实用质量特征
- 可访问性
- 及时性
- 语境清晰性
- 可用性
- 多源数据的可整合性
- 适当性或事实完整性
DAMA UK描述数据质量6个核心维度
- 完备性
- 唯一性
- 及时性
- 有效性
- 准确性
- 一致性
DAMA UK白皮书还描述了对质量有影响的其他特征
- 可用性
- 时间问题
- 灵活性
- 置信度
- 价值
ISO 8000
目的是帮助组织定义什么是符合质量的数据,什么是不符合质量的数据,使他们能够使用标准约束要求符合数据,并检核他们已经收到了符合同一质量标准的数据。
数据质量改进生命周期
- 计划
- 执行
- 检查
- 处理
数据质量常见问题
- 缺乏领导力导致的问题
- 数据输入过程引起的问题
- 数据处理功能引起的问题
- 系统设计引起的问题
- 解决问题引起的问题
数据剖析
统计信息识别,跨列分析,表间分析,解决问题还需要其他形式的分析
数据质量和数据处理,可能通过某种形式的数据处理来提升数据质量
- 数据清理或数据清洗;
- 数据增强;
- 数据解析和格式化;
- 数据转换和标准化。
定义数据质量战略
必须与业务战略保持一致,一个框架包括以下方法:
- 了解并优先考虑业务需求;
- 确定满足业务需求的关键数据;
- 根据业务需求定义业务规则和数据质量标准;
- 根据预期评估数据;
- 分享调查结果,并从利益相关方那里获得反馈;
- 优先处理和管理问题;
- 确定并优先考虑改进机会;
- 测量、监控和报告数据质量;
- 管理通过数据质量流程生成的元数据;
- 将数据质量控制集成到业务和技术流程中,还要考虑如何管理数据质量和如何利用数据质量工具。