一、为什么需要数据挖掘?
我们知道,BI可以辅助决策,BI应用按照不同的程度可分为现状分析、原因分析、预测分析。
现状分析洞察发生了什么?例如企业运营好了还是坏了?经营指标完成情况?业务构成?各项业务构成、发展及变动等。
原因分析进一步洞察为什么会发生?例如去年利润环比下降10%什么原因导致的?年度的销售量目标为什么未达成?
预测分析洞察将来要发生什么?例如明年公司业绩将会是多少?哪些客户可能流失?
不管是现状分析,还是原因分析,通过OLAP都可以实现。但是,OLAP实现不了预测分析,而预测恰恰就是数据挖掘最擅长的。
二、什么是数据挖掘?
数据挖掘是按照预定的规则对数据库和数据仓库中已有的数据进行信息开采、挖掘和分析,从中识别和抽取隐含的模式和有趣知识,为决策者提供决策依据。数据挖掘的任务是从数据中发现模式。模式有很多种,按功能可分为两大类:预测型(Predictive)模式和描述型(Descriptive)模式。
预测型模式是可以根据数据项的值精准确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。描述型模式不能直接用于预测。在实际应用中,根据模式的实际作用,可细分为分类模式、回归模式、时间序列模式、聚类模式、关联模式和序列模式6 种。其中包含的具体算法有货篮分析(Market Analysis)、聚类检测(Clustering Detection)、神经网络(Neural Networks)、决策树方法(Decision Trees)、遗传算法(Genetic Analysis)、连接分析(Link Analysis)、基于范例的推理(Case Based Reasoning)和粗集(RoughSet)以及各种统计模型。
三、OLAP与数据挖掘的区别?
OLAP 与数据挖掘的区别是:OLAP 侧重于与用户的交互、快速的响应速度及提供数据的多维视图,而数据挖掘则注重自动发现隐藏在数据中的模式和有用信息,尽管允许用户指导这一过程。OLAP 的分析结果可以给数据挖掘提供分析信息作为挖掘的依据,数据挖掘可以拓展OLAP 分析的深度,可以发现OLAP 所不能发现的更为复杂、细致的信息。数据挖掘的研究重点则偏向数据挖掘算法以及数据挖掘技术在新的数据类型、应用环境中使用时所出现新问题的解决上,如对各种非结构化数据的挖掘、数据挖掘语言的标准化以及可视化数据挖掘等。
简单来说,OLAP揭示的是已知的、过去的数据关系,数据挖掘揭示的是未知的、将来的数据关系。所以,数据挖掘可以用来做预测!
四、为什么需要数据挖掘?
数据挖掘是如何做到预测的?因为数据挖掘有一套标准的流程,可以对数据进行各种科学的处理和测试,从而发现数据本身隐藏的规律。这套流程概括起来包括业务理解、数据准备、建立模型和评估模型4个步骤,我们以“预测银行零售客户流失”这个应用场景为例进行说明:
第1步:业务理解
确定目标,明确分析需求
预测哪些银行零售客户将会流失,提前做好营销挽留。
第2步:数据准备
收集原始数据、检验数据质量、整合数据、格式化数据
初步判断客户可能会流失的情况,如银行卡交易量逐月下降、客户投诉持续不断,对跟这些情况有关的数据进行采集、格式化。
第3步:建立模型
选择建模技术、参数调优、生成测试计划、构建模型
客户是否会流失,是一个分类问题,所以选择分类算法建立模型并进行训练。
第4步:评估模型
对模型进行全面的评估,评估结果、重审过程
对建立好的模型进行评估,并且要根据预测结果不断调整模型参数,实现模型的最优化。
五、数据挖掘工具的使用
整个数据挖掘流程最关键是模型的迭代优化,模型算法有分类算法、回归算法、聚类算法等,每种算法类型又包含多种不同的算法,例如分类算法,就包含逻辑回归、朴素贝叶斯、决策树等,使用的编程语言有Java语言、Python语言、R语言。挖掘挖掘不仅需要扎实的计算机知识,而且还涉及到统计学、模型算法等技术,学习门槛很高,一般是专业技术人员在使用。
但是,借助市场上提供的数据挖掘工具,可以把数据挖掘的流程大大简化,让普通的分析人员也可以快速掌握。例如,由思迈特软件推出的数据挖掘工具Smartbi Mining,以互联网式用户体验为设计目标,极简风格的流式建模,快速实现各种类型的数据挖掘应用,为个人、团队和企业所做的决策提供预测性分析。
Smartbi Mining具备流程化、可视化的建模界面,内置实用的、经典的统计挖掘算法和深度学习算法,这些算法配置简单降低了机器学习的使用门槛,大大节省了成本,业务人员可通过轻松拖拉拽组件的操作,进行可视化建模,完成模型流程的搭建,并能将模型发布管理。
六、数据挖掘的应用场景
数据挖掘可广泛应用于各个领域,包括企业运营、生产控制、市场分析、工程设计、城市规划和科学探索等,下面是几个在企业运营领域的典型应用场景:
1、精准营销
分析客户的属性和消费行为,为客户推荐最合适的产品信息,提高营销的效果。
2、客户保留
分析客户在购买产品方面的行为变化和满意度情况,预测可能会流失的客户,提前做好挽留工作。
3、销量预测
分析产品的历史销售数据,预测未来一段时间的产品销量,为生产、库存提前做好准备。
4、价格预测
收集市场上影响产品价格的各种数据进行分析,预测产品价格的发展趋势,抢占市场先机。
5、信用评分
分析客户的基本信息和消费、还贷等记录,对客户信用进行评分,防范信用风险,减少损失。
不管是OLAP,还是数据挖掘,数据分析技术一直都在创新发展。未来随着BI融合AI的不断深入,数据分析也将变得更加智能,更加易用。我们需要根据实际的应用场景,选择最适合的分析工具来提高工作效率,从而更好地指导业务决策,让BI发挥出更多的效益!