原文链接:https://www.oracle.com/big-data/what-is-big-data.html
大数据定义
要真正理解大数据,了解一些历史背景是有帮助的。这是大约在2001年Gartner的定义:大数据是包含更多种类的数据,以越来越大的体积和越来越高的速度。 这被称为三个“V”(Variety:多样性,Volume:体量,Velocity:速度)。
简单地说,大数据是更大、更复杂的数据集,特别是来自新数据源的数据集。这些数据集是如此庞大,以至于传统的数据处理软件无法管理它们。但是这些海量的数据可以用来解决你以前无法解决的商业问题。
大数据的三个“V”
体量 | 与数据容量相关的事。 使用大数据,您将不得不处理大量低密度、非结构化数据。 这可能是价值未知的数据,如Twitter数据提要、网页或移动应用程序上的点击流,或启用传感器的设备。 对于一些组织来说,这可能是数十TB的数据。 对其他人来说,可能是数百PB。 |
速度 | 速度是接收数据和(也许)处理的速率。通常情况下,数据流直接进入内存的速度最高,而不是写入磁盘的速度。一些支持互联网的智能产品实时或近实时运行,需要实时评估和处理。 |
多样性 | 多样性是指可用的多种类型的数据。 传统的数据类型是结构化的,并在关系数据库中整齐地使用。 随着大数据的兴起,数据出现了新的非结构化数据类型。 非结构化和半结构化数据类型(如文本、音频和视频)需要额外的预处理来获取信息和支持元数据的使用。 |
大数据的价值和真相
在过去几年里又出现了两个“V”:Value(价值)和准Veracty(确性)。
数据具有内在价值。但在这个价值被发现之前它是没有用的。同样重要的是:你的数据有多真实,你能依赖它多少?
今天,大数据已经成为资本。想想一些世界上最大的科技公司。他们提供的大部分价值来自他们的数据,他们不断地分析这些数据,以产生更高的效率和开发新的产品。
近几年的技术突破成倍地降低了数据存储和计算的成本,使存储更多数据比以往任何时候都更容易和更便宜。随着大数据量的增加,现在更便宜和更容易访问,您可以做出更准确和更精确的业务决策。
在大数据中寻找价值不仅仅是分析它(这是另一个好处)。这是一个完整的发现过程,需要有洞察力的分析师、业务用户和高管提出正确的问题、识别模式、做出明智的假设和预测行为。
但我们是怎么走到今天的?
大数据的历史
虽然大数据本身的概念相对较新,但大数据集的起源可以追溯到20世纪60年代和70年代,当时数据世界刚刚开始第一个数据中心和关系数据库的发展。
大约在2005年,人们开始意识到用户通过Facebook、You Tube和其他在线服务产生了多少数据。 Hadoop(专门为存储和分析大数据集而创建的开源框架)是同年开发的。 在此期间,NoSQL也开始流行起来。
开发开源框架,如Hadoop(以及最近的Spark)对于大数据的增长至关重要,因为它们使大数据更容易与之合作,存储更便宜。 在此后的几年里,大数据的数量激增。 用户仍然在产生大量的数据——但不仅仅是人类在做这些。
随着物联网(物联网)的出现,更多的对象和设备连接到互联网上,收集关于客户使用模式和产品性能的数据。机器学习的出现制造了更多的数据。
虽然大数据已经走得很远了,但它的价值才刚刚开始。云计算进一步扩大了大数据的可能性。云提供了真正的弹性可伸缩性,在那里开发人员可以简单地设置特设集群来测试数据子集。
大数据和数据分析的好处:
l 大数据使你有可能获得更完整的答案,因为你有更多的信息。
l 更完整的答案意味着对数据更有信心-这意味着处理问题可以有完全不同的方法。
大数据案例
大数据可以帮助您解决一系列业务活动,从客户体验到分析。这里列举几个。(更多案例可以在Oracle大数据解决方案中找到)
产品开发 | 像Netflix和宝洁这样的公司使用大数据来预测客户的需求。 他们通过对过去和当前产品或服务的关键属性进行分类,并对这些属性与产品的商业成功之间的关系进行建模,为新产品和服务建立预测模型。 此外,宝洁还利用焦点小组、社交媒体、测试市场和早期商店推出的数据和分析来规划、生产和推出新产品。 |
预测性维护 | 可以预测机械故障的因素可能深深地埋在结构化数据中,例如设备的年份、制造和模型,以及覆盖数百万日志条目、传感器数据、错误消息和发动机温度的非结构化数据中。 通过分析这些潜在问题发生前的迹象,组织可以更有效地部署维护成本,并最大限度地延长零件和设备的正常运行时间。 |
客户体验 | 争夺顾客的比赛开始了。 现在比以往任何时候都更有可能更清楚地看待客户体验。 大数据使您能够从社交媒体、网络访问、呼叫日志和其他来源收集数据,以提高交互体验,并最大化交付的价值。 开始提供个性化的报价,减少客户流失,并主动处理问题。 |
欺诈和合规 | 当涉及到安全问题时,不仅仅是一些流氓黑客——你要对抗整个专家团队。安全环境和合规要求不断变化。大数据帮助您识别数据中相关欺诈的模式,并汇总大量信息,使监管报告更快。 |
机器学习 | 机器学习是目前的热门话题。 而数据——特别是大数据——就是原因之一。 我们现在可以教机器而不是编程。 利用大数据来训练机器学习模型使这成为可能。 |
业务效率 | 运营效率的提升可能并不是新鲜事,但这是一个大数据影响最大的领域。 有了大数据,您可以分析和评估生产,客户反馈和回报,以及其他因素,以减少中断和预测未来的需求。 大数据也可以用来改善决策符合当前市场需求。 |
推动创新 | 大数据可以通过研究人类、机构、实体和过程之间的相互依赖关系,然后,确定使用这些分析结果来帮助您进行创新。 使用数据洞察力来改进关于财务和计划考虑的决策、检查趋势和客户希望交付新产品和服务的内容、实行动态定价,有无尽的可能。 |
大数据挑战
虽然大数据有很大的前景,但它并非没有它的挑战。
首先,大数据是...大。 虽然为数据存储开发了新技术,但数据量大约每两年翻一番。 组织仍在努力承载他们的数据,并找到有效存储数据的方法。
但仅仅存储数据是不够的。数据必须是有价值的,这取决于管理。干净的数据,或与客户相关的数据,并以能够进行有意义的分析的方式组织起来,需要大量的工作。数据科学家花了50%到80%的时间来规划和准备数据,然后才能真正使用。
最后,大数据技术正在快速变化。几年前,Apache Hadoop是用来处理大数据的流行技术。 然后ApacheSpark于2014年推出。今天,将这两个框架结合起来似乎是最好的办法。 跟上大数据技术是一个持续的挑战。
大数据是如何工作的
大数据给你新的见解,开拓新的机会和商业模式。开始包括三个关键行动:
1. 整合
大数据汇集了来自许多不同来源和应用程序的数据。传统的数据集成机制,如ETL(提取、转换和加载)通常无法完成任务。 它需要新的策略和技术来分析TB,甚至PB规模的大数据集。
在集成过程中,您需要输入数据,处理数据,并确保它是格式化的,并且以业务分析师可以开始使用的形式提供。
2. 管理
大数据需要存储。您的存储解决方案可以在云中、本地部署或两者兼而有之。您可以将您的数据存储在您想要的任何形式中,并根据需要将您想要的处理需求和必要的处理引擎来处理这些数据集合。许多人根据他们的数据当前所在的位置来选择他们的存储解决方案。云正逐渐普及,因为它支持您当前的计算需求,并使您能够根据需要调整资源。
3. 分析
当你分析和处理的数据时,你对大数据的投资是有回报的。通过对各种数据集的可视化分析,获得清晰的新的结论。进一步探索数据,获得新的发现。与他人分享你的发现。用机器学习和人工智能构建数据模型。把你的数据投入工作。
大数据最佳实践
为了帮助您进行大数据之旅,我们已经为您整理了一些关键的最佳实践,供您了解。以下是我们建立成功的大数据基础的指导方针。
使大数据与特定的业务目标相一致 | 更广泛的数据集使您能够做出新的发现。 为此目的,在技能、组织或基础设施方面进行新的投资时,要有强有力的业务驱动背景,以保证正在进行的项目投资和供资的稳健。要确定您是否在正确的轨道上,请询问大数据如何支持和启用您的顶级业务和IT优先级。例如,了解如何过滤Web日志来分析电子商务行为,从社交媒体和客户支持交互中获得情感信息,以及了解统计相关方法及其与客户、产品、制造和工程数据的相关性。 |
用标准和治理缓解技能短缺 | 从您对大数据的投资中获益的最大障碍之一是技能短缺。 您可以通过将大数据技术、考虑因素和决策添加到IT治理程序中来减轻这种风险。 标准化的方案可以有效控制管理成本和杠杆资源。 实施大数据解决方案和战略的组织应尽早并经常评估其技能需求,并应积极主动地找出任何潜在的技能差距。可以通过培训/交叉培训现有资源、雇用新资源和利用咨询公司来解决这些问题。 |
以卓越中心优化知识传递 | 使用卓越中心方法来共享知识、控制监督和管理项目沟通。无论大数据是一项新的投资还是一项正在扩大的投资,软成本和硬成本都可以在整个企业中分摊。利用这种方法有助于以更结构化和系统化的方式提高大数据能力和总体信息体系结构的成熟度。 |
最大的回报是将非结构化数据与结构化数据结合起来 | 自行分析大数据无疑是有价值的。 但是,通过将低密度大数据与您今天已经使用的结构化数据连接和集成,您可以带来更大的业务洞察力。 无论您是捕获客户、产品、设备还是环境大数据,目标都是在核心主数据和分析摘要中添加更多相关数据点,从而得出更好的结论。 例如,在区分所有的客户情绪和只有你最好的客户之间是有区别的。 这就是为什么许多人认为大数据是他们现有商业智能能力、数据仓储平台和信息体系结构的一个整体扩展。 请记住,大数据分析过程和模型可以是基于人和机器的。 大数据分析能力包括统计、空间分析、语义、交互发现和可视化。 使用分析模型,您可以关联不同类型和来源的数据,以作出关联和有意义的发现。 |
规划探索实验室的表现 | 发现数据中的意义并不总是直截了当的。 有时候我们甚至不知道我们在找什么。 这是意料之中的。 管理和IT需要支持这种“缺乏方向”或“缺乏明确的要求。” 同时,分析师和数据科学家必须与业务密切合作,了解关键的业务知识差距和需求。 为了适应数据的交互探索和统计算法的实验,您需要高性能的工作领域。 确保沙箱环境有他们所需要的支持——并得到适当的管理。 |
与云运营模式保持一致 | 大数据处理加工和用户需要访问大量资源,以便进行迭代实验和运行生产作业。大数据解决方案包括所有数据领域,如事务、主数据、参考数据和汇总数据。应根据需要创建分析沙盒。资源管理对于确保对整个数据流(包括前后处理、集成、数据库内摘要和分析建模)的控制至关重要。一个精心规划设计的私有和公共云资源调配以及安全策略在支持这些不断变化的需求方面扮演着不可或缺的角色。 |