元数据管理目标
- 记录和管理与数据相关的业务术语和知识体系,以确保理解和使用数据内容的一致性;
- 收集和整合来自不同来源的元数据,以确保了解来自不同部门的数据的相似和差异;
- 确保元数据的质量、一致性、及时性和安全;
- 提供标准途径,使元数据使用者可以访问元数据;
- 推广和强制使用技术元数据,以实现数据交换。
元数据质量控制活动
- 质量保证,质量控制;
- 数据更新频率-与时间表匹配;
- 缺失元数据报告;
- 未更新的元数据报告。
成功实施元数据解决方案应遵循以下指导原则
- 组织承诺。确保组织对元数据管理的承诺(高级管理层的支持和资金),将元数据管理作为企业整体战略的一部分,将数据作为企业资产进行管理;
- 战略。制定元数据战略,考虑如何创建、维护、集成和访问元数据。战略推动需求,这些需求应在评估、购买和安装元数据管理产品之前定义。元数据战略必须与业务优先级保持一致。
- 企业视角。从企业视角确保未来的可扩展性,但是要通过迭代和增量交付来实现,以带来价值;
- 潜移默化。宣导元数据的必要性和每种元数据的用途;潜移默化其价值将鼓励业务使用元数据,同时也为业务提供知识辅助;
- 访问。确保员工了解如何访问和使用元数据;
- 质量。认识到元数据通常是通过现有流程(数据建模、SDLC、业务流程定义)生成的,所以流程所有者应对元数据的质量负责;
- 审计。制定、实施和审核元数据标准,以简化元数据的集成和使用;
- 改进。创建反馈机制i,以便数据使用者可以将错误的或过时的元数据反馈给元数据管理团队。
业务元数据
主要关注数据的内容和条件,另包含与数据治理相关的详细信息,业务元数据包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的阈值及其定义;示例有:
- 数据集、表和字段的定义和描述;
- 业务规则、转换规则、计算公式和推导公式;
- 数据模型;
- 数据质量规则和检核结果;
- 数据的更新计划;
- 数据溯源和数据血缘;
- 数据标准;
- 特定的数据元素记录系统;
- 有效值约束;
- 利益相关方联系信息(如数据所有者、数据管理专员);
- 数据的安全/隐私级别;
- 已知的数据问题;
- 数据使用说明。
技术元数据
提供有关数据的技术细节,存储数据的系统以及在系统内和系统之间的数据流转过程的信息。示例:
- 物理数据库表名和字段名;
- 字段属性;
- 数据库对象的属性;
- 访问权限;
- 数据的CRUD规则;
- 物理数据模型,包括数据表名、键和索引;
- 记录数据模型与实物资产之间的关系;
- ETL作业详细信息;
- 文件格式模式定义;
- 源到目标的映射文档;
- 数据血缘文档,包括上游和下游变更影响的信息;
- 程序和应用的名称和描述;
- 周期作业(内容更新)的调度计划和依赖;
- 恢复和备份规则;
- 数据的访问的权限、组、角色;
操作元数据
描述了处理和访问数据的细节,例如:
- 批处理程序的作业执行日志;
- 抽取历史和结果;
- 调度异常处理;
- 审计、平衡、控制度量的结果;
- 错误日志;
- 报表和查询的访问模式、频率和执行时间;
- 补丁和版本的维护计划和执行情况,以及当前的补丁级别;
- 备份、保留、创建日期、灾备恢复预案;
- 服务水平协议(SLA)要求和规定;
- 容量和使用模式;
- 数据归档、保留规则和相关归档文件;
- 清洗标准;
- 数据共享规则和协议;
- 技术人员的角色、职责和联系信息。
元数据度量指标
- 元数据存储库完整性。理想覆盖率与实际覆盖率比较;
- 元数据管理成熟度。能力成熟度模型(CMM-DMM)评估;
- 专职人员配置,评估承诺;
- 元数据使用情况;
- 业务术语活动。使用、更新、定义解析、覆盖范围;
- 主数据服务数据遵从性;
- 元数据文档质量:手动+自动;
- 元数据存储库可用性。正常运行时间、处理实践(批处理和查询)
缺乏高质量元数据带来的影响
- 因不正确、不完整和不合理的假设和缺乏数据内容的知识导致错误判断;
- 暴露敏感数据,使客户或员工面临风险,影响商业信誉和导致法律纠纷;
- 如果了解数据的那些领域专家们离开了,那么他们了解的知识也随之被带走了。