大数据简介
一、无处不在的数据
数据,已经成为我们生活的一部分。无论是企业的运营数据,还是国家的宏观数据,亦或是金融数据、物联网数据、航天数据、生物信息数据、互联网数据,它们如同空气一般,无处不在。
二、大数据简介
大数据,是指在一定时间范围内,无法用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现例和流程优化能力的海量、高增长率和多样化的信息资产。它具有体量巨大、类型繁多、商业价值高但价值密度低、产生速度快的特点。我们正被数据淹没,但却缺乏知识,数据丰富,但信息和知识贫乏,数据不等于知识。
三、大数据的特点
- 数据的体量巨大(Volume)
- 数据类型繁多(Variety)
- 商业价值高,而价值密度却较低(Value)
- 数据产生速度快,处理速度快(Velocity)
四、大数据带来的问题
- 数据过量,如同食物过多,难以消化;
- 数据形式不一致,如同不同语言的书籍,难以统一处理;
- 数据真假难以辨识,如同辨别真假朋友,困难重重;
- 数据安全难以保证,如同保护财产,需要重重防护;
- 我们正被数据淹没,但却缺乏知识,如同面对海量食材,却不会烹饪。
五、解决方法:大数据分析挖掘
大数据分析挖掘:从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识,如同从海量食材中提炼出美味的菜肴。
数据分析建模过程
第1步:定义分析目标(目标定义:任务理解;指标确定)
- 确定目标的重要性
- 要充分发挥数据挖掘价值,必须对目标有清晰明确定义
- 确定目标
- 即:到底想干什么
- 针对具体数据挖掘应用需求,明确本次挖掘目标是什么?系统完成后达到什么样效果?
- 分析应用领域
- 分析应用中的各种知识和应用目标,了解相关领域有关情况
- 熟悉背景知识,弄清用户需求
第2步:数据抽样(数据采集:建模抽样;质量把控;实时采集)
- 抽取数据的标准
- 一是相关性,二是可靠性,三是有效性,而不是动用全部企业数据。
- 通过数据样本精选,不仅能减少数据处理量,节省系统资源,而且使想要寻找规律性更突显
- 数据抽样设计两个维度的抽样
- 属性维度
- 样本维度
- 数据样本抽样方法:
- 随机抽样:在采用随机抽样方式时,数据集中没一组观测都有相同的被抽样概率。
- 等距抽样:如按5%的比例对一个有100组观测值的数据集进行等距抽样,则有100/5=20,等距抽样方式是取第20、40 、60 、80和第100五组观测值。
- 分层抽样:将样本总体分成若干个子集。每个层次中的观测值都具有相同的被选用概率,但对不同的层次可设定不同的概率。这样的抽样结果通常具有更好代表性,进而使模型具有的拟合精度。
- 分类抽样:分类抽样则依据某种属性的取值来选择数据子集,如按客户名称分类、按地址域分类等。分类抽样的选取方式就是前面所述的几种方式,只是抽样以类为单位。
第3步:数据整理-数据探索(数据整理:数据探索;数据清洗;数据变换)
- 数据探索目标
- 数据取样带着人们对如何实现数据挖掘目的先验认识进行操作,所以我们要通过数据探索:
- 目前数据是否达到原来设想要求
- 有没有明显规律和趋势:有没有出现从未设想过的数据载体;属性间有什么相关性;它们可区分成怎样类别...
- 对所抽取样本数据进行探索、审核和必要的加工处理,是保证最终挖掘模型质量所必需的
- 数据取样带着人们对如何实现数据挖掘目的先验认识进行操作,所以我们要通过数据探索:
- 数据探索主要方法
- 异常值分析、缺失值分析、相关分析、分布分析、周期性分析、描述性统计分析等
第3步:数据整理-数据预处理
- 预处理的目的
- 处理噪声、不完整,甚至不一致数据
- 标准化或转换数据使得满足算法输入要求
- 特征提取或规约,提高算法效率
- 预处理方法
- 缺失值处理、异常值处理、数据标准化、数据规约等
第4步:分析建模(构建模型:模式发现;构建模型;验证模型)
- 选型
- 本次建模属于数据分析应用中的哪类问题,选用哪种算法进行模型构建?
- 常用分析模式:
- 关联分析
- 预测分析:分类和回归
- 聚类分析
- 异常分析
- 关联分析
- 关联规则挖掘:
- 从事五数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性
- 广泛的用于购物或事务数据分析
- 关联规则挖掘:
- 预测分析:分类和回归
- 预测分类有两类任务:
- 分类分析:用于预测离散的目标变量,例:预测一个web用户是否会在网上买书是一个分类任务
- 回归分析:用于预测连续的目标变量,例:预测某股票未来的价格趋势则是回归任务
- 预测分类有两类任务:
- 聚类分析
- 将无量或抽象对象的集合分组成有类似的对象组成的多个类的过程
- 最大化类内的相似性和最小化类间的相似性
- 异常分析
- 异常点:一些与数据的一般行为或模型不一致的孤立数据
- 通常异常点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见时间进行异常分析而得出结论。
- 应用:
- 信用卡欺诈检测
- 移动电话欺诈检测
- 医疗分析(骗保、流行病监控)
- 设备运行状况实时监测
第5步:模型评价(模型评价:设定评价保证;多模型对比;模型优化)
- 目的
- 从模型中自动找出一个最好的模型
- 根据业务对模型进行解释和应用
- 评价方法
- 标准
- 不管黑猫、白猫,抓到老鼠就是好猫
第6步:模型分布:模型部署;模型重构
常用数据分析建模工具
- SAS Enterprise Miner:统计分析软件,适合专业统计分析人员
- IBM茨 SPSS Modeler:社会科学统计软件包,适用非专业人士
- SQL Server
- Python
- WEKA:怀卡托智能分析环境,开放源码的数据挖掘软件
- R语言
- Matlab矩阵实验室
- Tableau-数据可视化
- KNIME:是德国康斯坦茨大学开发的一款功能强大的免费开源分析工具
- RapaidMiner:提供的实验由大量的算字组成,使用图形化的用户接口可以将这些算字以积木块的方式搭建成系统
- TipDM:英泰TiDM系统是北京清软英泰信息技术有限公司开发的一款经典的产品数据管理软件系统,可以用来管理几乎所有与产品有关的数据,包括产品结构(BOM)、设计图纸、设计文件以及其它各种图文档,并能够使得这些数据通过网络进行评审及发放。
如何选择数据分析系统
- 数据类型(关系、文本、事务、时间序列、空间)
- 系统问题(运行的操作系统)
- 数据源(多关系数据源)
- 数据挖掘的功能和方法
- 数据挖掘系统和数据库或数据仓库系统的结合
- 可伸缩性(数据库的大小和维度)
- 可视化工具
- 数据挖掘查询语言和图形用户接口