当前的人工智能可以总结为数据和智能算法的结合,也就是通过对过往经验的分析得到实验模型,并且利用这种模型指导实际的业务。如果把人工智能看作人类大脑的话,里面的血液就是数据,而承载着数据的流转的血管可以看作是相关的机器学习算法。
1.数据现状
什么是数据呢?它既包括宇宙中天体运动的速度、角度及天体的质量,也包括人类文明的留下的文字、建筑、诗画等。数据无处不在,但数据的价值在于如何被采集和利用。
根据存储市场调研的最新报告,目前世界全年的数据保存量约为50EB(EB=1024PB=1152921504606847000B),这些数据来源于各行各业,包括:互联网、医疗健康、通信、公共安全以及军工等。
虽然诸如Facebook、Google和阿里巴巴这样的国际互联网巨头已经积累了大量的数据,并且将数据进行分析来促进自身业务发展。但是截止到今天,全世界每年保存下来的数据不足数据产生总量的百分之一,其中可以被标记并且分析的数据更少。这种现状造成了两方面的瓶颈,一是数据产生和数据收集的瓶颈,二是采集到的数据和能被分析的数据之间的瓶颈。
出现数据产生和数据采集的瓶颈的原因是多方面的,一方面是硬件存储成本的限制,另一方面是数据的采集缺乏标准。虽然互联网公司在数据采集和标准制定方面已经形成了一套成熟的体系,但对于传统行业来说,数据的采集方式还处于摸索当中。
数据采集方面固然还需要制定更多的标准以及更强技术的支持,但是数据的应用方面也存在很多的缺陷。目前可以供分析的数据还只占很小的比例,原因主要有两方面:一是目前比较主流的机器学习算法都是监督学习算法,它需要的数据源是打标过的数据,而打标数据很多时候依赖于人工标记,人工打标的成本太高;二是当前对于非结构化数据处理能力较低,非结构化数据指的是文本、图片、语音、视频这样的数据,目前的科技水平在大批量处理和特征提取方面依然处于相对基础的阶段。
互联网在不断发展,数据生成的步伐也不会停止。在未来,数据就像是水电煤一样,会成为重要的基础资源。在大数据时代,数据一定会展现出更大的潜能,人类社会也会进入数据处理技术(Data Technology,DT)时代。
2.机器学习算法现状
传统的机器工作模式是这样的:程序员向机器输入一连串的指令(代码),然后机器按照这些指令一步一步执行下去,最终的结果通常是我们可以事先预料的。机器学习方法是计算机利用已有的数据(经验)得出了某种模型,并利用这些模型来预测未来的一种方法。这个过程与人的学习过程极为相似,如下图所示:
如今生活在这样的大数据时代,随时随地都可以看到机器学习的影子,通过机器对大数据进行分析而带来的人工智能应用,正在一点一点地改变人们的生活方式和思维方式。机器学习的常见场景如下:
1) 聚类场景:人群划分和产品种类划分等。
2) 分类场景:广告投放预测和网站用户点击预测等。
3) 回归场景:降雨量预测、商品购买量预测和股票成交额预测等。
4) 文本分析场景:新闻的标签提取、文本自动分类和文本关键信息抽取等。
5) 关系图算法:社交网络关系(Social Network Site,SNS)挖掘和金融风险控制等。
6) 模式识别:语音识别、图像识别和手写字识别等。
随着数据智能、数据驱动等思想的传播,机器学习算法正在成为一种普世的基础能力向外输出。我们可以大胆猜测,未来随着算法和计算能力的发展,机器学习会在金融、医疗、教育、安全等各个领域有更深层次的应用,到那个时候,机器学习算法将真正做到颠覆生活并改变人类的命运。