接前一篇文章:软考 系统架构设计师之回归及知识点回顾(7)
12. 大数据
大数据和云计算已成为IT领域的两种主流技术。“数据是重要资产”这一概念已成为大家的共识,众多公司争相分析、挖掘大数据背后的重要财富。同时学术界、产业界和政府都对云计算产生了浓厚的兴趣:全球范围内讨论云计算技术学术活动如火如荼;谷歌、亚马逊、IBM、微软等IT巨头大力推动云计算的宣传和产品的普及。各国政府斥巨资纷纷打造大规模数据中心与计算中心。
大数据的定义
(1)维基百科的定义
大数据是指其大小或复杂性无法通过现有常用的软件工具、以合理的成本并在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入、存储、搜索、共享、分析和可视化。
(2)Granter的定义
Granter公司关注大数据的三个量化指标:数据量、数据种类和处理速度。Granter认为传统的存储技术难以应付大数据处理,主要存在以下三大挑战:
- 挑战一:不断增长的数据量
在大数据背景下,数据这一宝贵财富通常是不能删除的,因此数据将不断积累增长,增长速度经常超出人们预计。信息中心需要管理TB级甚至PB级数据。要为这些数据提供存储、保护和使用的方案,信息系统需要不断地作相应升级或重构,需要投入大量人力物力。
- 挑战二:多格式数据
海量数据包括了越来越多不同格式的数据,这些不同格式的数据也需要不同的处理方法。从简单的电子邮件、数据日志和信用卡记录,再到仪器收集到的科学研究数据、医疗数据、财务数据以及丰富的媒体数据(包括照片、音乐、视频等),都具有这个特点。
速度是指数据从客户端到处理器的存储的移动速度,涉及终端数据处理能力、数据流访问和支付、服务器计算处理能力和后端存储的吞吐能力。速度意味着要求数据必须以足够快的频率被处理。大数据处理需要不同于交易类应用的速度,通常其对带宽的要求比I/O操作的速度更重要。
(3)IBM的定义
IBM认为大数据横跨三个层面:数量、速度和品种。IBM将大数据概括为三个V,即大规模(Volume)、高速度(Velocity)和多样化(Variety),这些特点也反映了大数据所潜藏的价值(Value,第四个V)。因此,大数据的特征可以整体概括为:“海量 + 多样化 + 快速处理 + 价值”。
(4)SAS的定义
SAS在大数据传统“3V”模型定义的基础上加入了“可变性”和“复杂性”两个重要特征。
可变性主要反映了数据流可能具有高度的不一致性,并存在周期性的峰值。对日常的、季节性和时间驱动的峰值数据流的管理具有挑战性,特别是当社交媒体介入的情况下。
复杂性主要体现在数据来源的多样性上。连接、匹配、清洗和转化来自多个系统的数据是一件非常复杂的事情。除此以外,还需要考虑不同数据源之间的连接关系、关联关系和层次关系等。需要实施数据治理策略,帮助企业系统地集成结构化和非结构化数据资产,产生高质量、恰当的、最新的有用信息。
大数据的研究内容
2012年冬季,来自IBM、微软、谷歌、HP、MIT、斯坦福、加州大学伯克利分校、UIUC等产业界和学术界的数据库领域专家通过在线的方式共同发布了一个关于大数据的白皮书。改白皮书首先指出大数据面临着5个主要问题,分别是:异构性(Heterogeneity)、规模(Scale)、时间性(Timeliness)、复杂性(Complexity)和隐私性(Privacy)。在这一背景下,大数据的研究工作将面临5个方面的挑战:
- 挑战一:数据获取问题。我们需要决策哪些数据需要保持或丢弃等问题,目前这些决策还只能采用特设方法给出。
- 挑战二:数据结构问题。如何将没有语义的内容转换为结构化的格式,并进行后续处理。
- 挑战三:数据集成问题。只有将数据之间进行关联,才能充分发挥数据的作用,因此数据集成也是一项挑战。
- 挑战四:数据分析、组织、抽取和建模是大数据本质的功能性挑战。数据分析是许多大数据应用的瓶颈,目前底层算法缺乏伸缩性、对待的分析数据的复杂性估计不够,等等。
- 挑战五:如何呈现数据分析的结果,并与非技术的领域专家进行交互。
为了应对上述挑战,白皮书建议采用现有成熟技术解决大数据带来的挑战,并给出了大数据的分析步骤,大致分为数据获取/记录、信息抽取/清洗/注记、数据集成/聚集/表现、数据分析/建模和数据解释5个主要阶段。在每个阶段都面临着各自的研究问题。
(1)数据获取和记录
研究数据压缩中的科学问题,能够智能地处理原始数据,在不丢失信息的情况下,将海量数据压缩到人可以理解的程度;研究“在线”数据分析技术,能够处理实时流数据;研究元数据自动获取技术和相关系统;研究数据来源技术,追踪数据的产生和处理过程。
(2)信息抽取和清洗
一般来说,收集到的信息需要一个信息抽取过程,才能进行数据分析。抽取的对象可能包含图像、视频等具有复杂结构的数据,而且该过程通常是与应用高度相关的。
一般认为,大数据通常会反映事实情况,实际上大数据中广泛存在着虚假数据。关于数据清洗的现有工作通常假设数据是有效的、良好组织的,或对其错误模型具有良好的先验知识,这些假设在大数据领域将不再正确。
(3)数据集成、聚集和表示
由于大量异构数据的存在,大数据处理不能仅仅是对数据进行记录、然后就将其放入存储中。如果仅仅是将一堆数据放入存储中,那么其他人就可能无法查找、修改数据,更不能使用数据了。即使各个数据原都存在元数据,将异构数据整合在一起仍然是一项巨大的挑战。
对大规模数据进行有效分析需要以自动化的方式对数据进行定位、识别、理解和引用。为了实现该目标,需要研究数据结构和语义的统一描述方式与智能理解技术,实现机器自动处理。从这一角度看,对数据结构与数据库的设计也显得尤为重要。
(4)查询处理、数据建模和分析
大数据中的噪声很多,具有动态性、异构性、关联性、不可信性等多种特征。尽管如此,即使是充满噪声的大数据也可能比小样本数据更有价值,因为通过频繁模式和相关性分析得到的一般统计数据通常强于具有波动性的个体数据,往往透露更可靠的隐藏模式和知识。互联的大数据可形成大型异构的信息网络,可以披露固有的社区,发现隐藏的关系和模式。此外,信息网络可以通过信息冗余以弥补缺失的数据、交叉验证冲突的情况、验证可信赖的关系。
数据挖掘需要完整的、经过清洗的、可信的、可被高效访问的数据,以及声明性的查询(例如SQL)和挖掘接口,还需要可扩展的挖掘算法及大数据计算环境。在TB级别上的可伸缩复杂交互查询技术是目前数据处理的一个重要的开放性研究问题。当前的大数据分析的一个问题是缺乏数据库系统之间的协作,需要研究并实现将声明性查询语言与数据挖掘、数据统计包有机整合在一起的数据分析系统。
(5)解释
仅仅有能力分析大数据本身、而无法让用户理解分析结果,这样的效果价值不大。最终,一个决策者需要对数据分析结果进行解释。对数据的解释不能凭空出现,通常包括检查所有提出的假设并对分析过程进行追踪和折回分析。此外,分析过程中可能引入许多可能的误差来源:计算机系统可能有缺陷、模型总有其适用范围和假设、分析结果可能基于错误的数据等。在这种情况下,这一过程特别具有挑战性,是一个重要的研究内容。
大数据的应用领域
(1)制造业的应用
制造业目前正向信息化和自动化的方向发展。在产品的设计、生产和销售中,越来越多的企业使用计算机辅助设计(CAD)、计算机辅助制造(CAM)等软件;数控机床、传感器等设备;物料需求计划(MRP)、企业资源计划(ERP)等系统。这些信息技术的应用大大提高了工作效率和产品质量。
然而,随着信息化的不断深入,制造业目前所面临的挑战是在产业信息化之后,如何提升获取和开拓市场需求的能力,从而创造出更有价值的商品。如今,企业管理信息系统中存储的信息,各种工业传感器和数控设备中产生的数据,都将汇集到一起形成大数据,以提高生产效率为目标的信息化制造业转变成以掌握用户需求为目标的智慧化制造业。大数据为制造业的创新转型(无论是精益化提升还是服务化转型)提供了新的路径和方式。
另一方面,海量数据扩大了算法和运筹学的应用领域。例如,在部分制造企业,算法对生产线的传感器信息进行分析,形成了自我调节的流程,从而减少了浪费,避免了代价高昂(有时还十分危险)的人为干预,最终提升产量。
(2)服务业的应用
传统的服务业有着悠久的历史。当信息时代到来的时候,服务业就衍化出了两种形态:一种是信息技术与服务业相结合的信息服务业;另一种是应用信息技术改造传统服务业而来的服务业。前者包括计算机软件、通信服务、信息咨询服务等;后者包括信息化改造后的商业、金融业、旅游业等。大数据恰恰就在这两者之间起到了牵线搭桥的作用:一方面,它使得信息服务业从提供软硬件技术服务升级到提供智慧解决方案;另一方面,它将改变现有的服务业业态模式,将关注点转向数据。
(3)交通行业的应用
当前,出行难问题对各大城市来说都亟待解决。当前,可以利用先进的传感技术、网络技术、计算技术、控制技术、智能技术,对道路和交通进行全面感知。而在大数据时代下的智慧交通,需要融合传感器、监视视频和GPS等设备产生的海量数据,甚至与气象监测设备产生的天气状况等数据相结合,从中提取出人们真正需要的信息,及时而准确地进行发布和推送,通过计算直接提供最佳的出行方式和路线。
(4)医疗行业的应用
医疗健康问题是当前社会普遍关注的焦点问题。以往,人们总是在发现自己生病时才看病就医,而且到了医院还要经历挂号、求诊、配药等复杂流程,整个过程需要耗费大量时间,容易形成就医难的困境。如今,基于电子医疗记录技术,电子病历正逐渐被各大医疗机构所采用的。在去医院前,可以通过网上预约挂号;在就医时,仅用一张IC卡就能付费;医生还可以将问诊过程中的记录、病人的化验单、医疗影像数据(拍片)等诊断数据输入电脑以备随时调用。
在大数据时代,可以将医疗机构的电子病历记录标准化,形成全方位、多维度的大数据仓库。系统首先全面分析患者的基本资料、诊断结果、处方、医疗保险情况和付款记录等诸多数据,再将这些不同的数据综合起来,在医生的参与下通过决策支持系统选择最佳的医疗护理解决方案。
至此,之前(去年)的所有知识点都已回顾完成了。