什么是集体智慧?
集体智慧的定义为:
收集、组合和分析数据,从一大群人中搜集的答案可以使我们得出关于群组的统计结论:组中的个体将被忽视,将成百上千人的想法组合在一起,形成一种不依赖个人观点的结论。
寻求集体智慧的例子:
wikipedia
wikipedia 是一个在线的百科全书,任何人都可以新建或者编辑网站上的任何一个页面,这便是集体智慧的一种体现。这使得wikipedia成为了世界上最大的百科全书。
google
不知道你在朋友圈发表过文章没有 ? 如果一篇文章被转载的次数越多,那么你会觉得自己越可能喜欢这篇文章。
科研论文的评价就是采用这样的方式,人们将论文的重要程度与它被其他论文引用的次数联系起来,引用越多的论文其重要程度就越大。
将文章的重要程度与被其他论文引用的次数建立联系,这也是一种集体智慧的表现;就像是卖东西,大家都给好评的话,这个物品就越可能是你想要的,因为这个物品是经过成百上千买过的人评价的。
google搜索引擎对网页排序时就使用了“被引用次数”的评价标准,并且起名叫”PageRank算法”。
京东、淘宝、亚马逊的推荐
打开这些网站时,它们会向你推荐各种你可能买的商品。这些推荐越符合你的心意,你就越可能买这件商品,这样卖家就能赚到钱,而制作这个交易平台的人也能借此分到利润。
这些网站背后提供推荐的算法叫做推荐系统。推荐系统可以利用很多顾客对同一个物品的喜好数据(比如通过获取评论的方式),向没有买过这件物品的人提供推荐;
这些提供推荐的做法和google有什么共同之处呢?
它们都使用了先进的算法,采集来自不同人群的数据加以组合,进而得出新的结论,并创造出新的商机。
wikipedia和google又有什么区别?
wikipedia的成功取决与提供内容的用户,不是软件中的智能算法;而google的成功却是用算法将不同用户的数据组合在一起。这两种显然都是集体智慧的表现,但本书主要倾向于算法。
从数据中学习正是机器学习的强项,故本书的很多方法都是基于机器学习的,下面开始介绍机器学习。
机器学习
机器学习是将一组数据传递给算法,由算法推算出这些数据之间的关系模型。由数据经过算法处理得到关系模型的过程叫做“训练”。
借助学习到的关系模型,当给予一个它没见过的新数据时,算法会根据训练阶段学习到的关系模型对它进行预测。
你会发现这些算法和统计学的知识有很大关系。
比如说,你收到很多短信,信息内容都包含“一元抢苹果手机”,我们可以很快识别短信内容和‘是否是垃圾短信’之间的关系模式,即带有“一元抢苹果手机”的短信就是垃圾短信,应该直接删掉。
我们将多条这样的短信标记为垃圾短信之后,机器学习算法应该自己学会其中的关系模式。当遇到新短信,其中包含“一元抢苹果手机”,机器学习算法应该能得出‘这是一条垃圾短信’的结论。
为什么需要机器学习?
有些任务直接编码较为复杂,我们不能处理所有的细微之处和简单编码,因此,机器学习很有必要。相反,我们向机器学习算法提供大量数据,让算法不断探索数据并构建模型来解决问题。比如:在新的杂乱照明场景内,从新的角度识别三维物体;编写一个计算信用卡交易诈骗概率的程序。
机器学习方法如下:它没有为每个特定的任务编写相应的程序,而是收集大量事例,为给定输入指定正确输出。算法利用这些事例产生程序。该程序与手写程序不同,可能包含数百万的数据量,也适用于新事例以及训练过的数据。若数据改变,程序在新数据上训练且被更新。大量的计算比支付手写程序要便宜的多。