大数据时代的历史机遇

——产业变革与数据科学

赵国栋、易欢欢、糜万军、鄂维南  

 

大数据正以前所未有的速度,颠覆人们探索世界的方法、驱动产业间的融合与分立。本书力图系统、全面的阐述大数据在社会、经济、科学研究等方方面面的影响,或许可以帮助大家澄清一些认知误区,有助于大数据在各行各业落地生根。全书分为三大部分,第一部分重点讲述大数据时代产业发展的三大趋势以及驱动产业融合、升级、转型的根本因素,并给出践行大数据的最佳范式。第二部分首次完整 阐述“数据科学”的基础性价值,论述数据科学对科学研究、社会研究、产业发展的影响,并提出数据科学的教育体系。第三部分全景式的介绍重点国家、经济体、新兴企业在大数据领域取得的进展,展示一幅真实的大数据图景,把判断留给读者,看谁拥有未来!

本书面向资本市场、产业界和学术界,成为链接三方的纽带。有助于投资人了解产业趋势、评估公司价值;有助于产业界确立公司战略方向;有助于学术界了解产业需求,促进产学的协作。

 

前 言

 

星罗密布的人造卫星和数以千万计的各种传感器,源源不断的侦测、创建和传输大量的数据。人们的喜怒哀乐、吃穿住行等人性化的表征和行为都在虚拟的网络空间中再现和升华。人类已经进入了数据时代。 数据的影响已经渗入到了产业、科研、教育、家庭和社会等各个层面。 可以说,缺乏数据资源,无以谈产业;缺乏数据思维,无以言未来。

尽管大数据已经成了一个热点话题,但目前大数据方面的文献大多聚焦在它的数据容量,数据多样性以及访问速度上,也就是所谓的三个“V”。本书则力图穿透数据爆炸的表象,聚焦于探讨大数据对于产业变革、科学研究的巨大影响。大数据正以前所未有的速度,颠覆人们探索世界的方法,驱动产业间的融合与分立。因而当务之急是,我们怎么认知大数据?如何让大数据更好的应用到科学研究中去?如何让大数据切实帮助公司突破增长的瓶颈?本书力图系统、全面的阐述大数据社会、经济、科学研究等方方面面的影响,或许可以帮助大家澄清一些认知误区,有助于大数据在各行各业落地生根。

这本书近三十万字的篇幅围绕三个核心问题划分划分为三大部分,大数据时代,产业界重要的发展趋势是什么?学术界倡导的数据科学如何发挥基础性和创造性双重价值?主要国家和经济体颁布了哪些政策,有哪些具体措施?本书第一部分回答产业趋势的问题,第二部分重点在于数据科学,第三部分概览世界主要国家、经济体在大数据方面的政策和举措,海外巨头以及新兴公司在大数据领域的实践。

“数据成为资产”是最核心的产业趋势。正如本书概述所提到的:“当写完这些案例,回头审视产业的起起伏伏,发现产业兴衰的决定性因素,已经不是一城一池的争夺。土地、人力、技术、资本这些传统的生产要素,甚至需要追随“数据资产”,重新进行优化配置。”那些拥有优质数据资产的公司,挟天子以令诸侯,不断的攻伐、侵袭其他产业的传统领地。产业融合大幕随之拉开,天平却向这些新兴的公司倾斜。由此也得出我们第一个公司价值的判断标准:“大数据时代公司的价值,与其数字资产的规模、活性成正比,与其解释、运用数据的能力成正比。”

本书用四章的篇幅来描述“数据资产”。提出数据资产的评估模型,以此为基础,来判断符合哪些条件,才是优质的数据资产,才具备产业间攻伐的潜力。围绕数据资产的运用,衍生出不同的商业模式,通过大量的学术研讨和商业案例,来阐释这些商业模式的合理性、颠覆性。第四章和第五章分别描述了已经被颠覆的媒体行业和正在受到冲击的金融行业。

具体到信息产业内部,我们认为当下另一个重要的趋势是“行业垂直整合”。那些越是靠近产业链末端,越是靠近最终消费者的公司,将在产业链中拥有越来越大的发言权。这一趋势对中国信息产业而言,尤其意义重大,它是大数据时代,我国信息产业实现弯道超车的契机。影响这个趋势的关键因素包括开源软件的兴盛、软硬一体化重新唱主角、应用为王、极简主义盛行等。洞悉行业垂直整合趋势,将对一、二级市场的投资判断,有重要的参考意义。本书第六章将重点谈论这部分内容。

泛互联网化是我们提出的另一个主要思想,也是收集数据资产,发挥大数据商业价值的最佳实践。多种形态的设备、软件都会具备联网的功能,联网成为泛化的功能的存在于各种设备、各种软件之中。我们系统的考察了苹果、谷歌等引领世界潮流的公司商业模式,也遍访国内传统的IT公司,提出“终端”+“应用”+“平台”以及“数据”四位一体的泛互联网化范式。重点揭示该范式的特征与实践,批判“工业时代的标准化思维”。灵活利用泛互联网化范式,传统企业会取得意料之外的高速增长,也是创业型公司从零开始积累数据资产的正途。这个话题的初步探讨参见第七章。

本书第二部分围绕“数据科学”展开。大数据给科学和教育事业的发展提供了前所未有的机会,同时也提出了前所未有的挑战。它将对现有的科研和教学体制带来大幅度的变革,对科学与产业之间的关系、科学与社会之间的关系带来大幅度的变革。信息时代,万物数化。许多学科已经和信息科技深度融合,形成新的研究领域,譬如生物信息学、天体信息学、数字地球、计算社会学等。 “用数据来研究科学”已经是科学研究的主要手段之一 。 另一方面,大量的、非结构化的数据,同样需要科学的手段,来去芜存菁,即“科学的研究数据”。另外,产业界在生产经营中积累的丰富的数据,学术界则有有待于实践检验的模型和算法。 “数据科学”为学术界和产业界紧密衔接提供了纽带和桥梁,成为促进产、学、研深度融合的重要契机。本书第九章、第十章重点论述“数据科学”及相关内容。

本书前两部分偏重构建大数据相关理论和趋势,第三部分则全景扫描各政府、各大经济体、各行业领头羊和典型的新兴公司在大数据方面的具体实践。如果没有第三部分,前两部分就像自说自话,成了无源之水。在各国政府的大数据行动中,美国的动向无疑最值得关注。第十一章几乎通篇都在讲美国政府的开放策略。大家从中可以看到,美国政府是如何利用数据技术,来促使政府变得更加透明、廉洁和高效。读罢这一章,我们也很容易理解奥巴马政府《大数据研究与发展计划》的初衷。巨头碰撞一章阐述了大型公司如何利用大数据技术相互攻伐,创新凶猛一章则重点放在有哪些值得关注的新兴企业,对于专注于早期投资的机构而言,这章具备十分重要的参考意义。
      

这本书是我和易欢欢、糜万军、鄂维南院士通力合作的结晶。易欢欢先生是宏源证券研究所副所长,曾荣获2011年新财富奖、水晶球奖金牌分析师第一名,在资本市场首提大数据概念,引领一时之风潮。糜万军先生是亿赞普公司首席技术官,同时也是“中关村高端领军人才”的代表人物。糜总在大规模数据挖掘和系统、高性能计算、定向广告的核心算法方面造诣深厚。鄂维南先生是中国科学院院士,同时也是北京大学长江讲座教授、美国普林斯顿大学教授。他已倡导数据科学多年,是我国发展数据科学的领军人物之一。


在写作过程中,得到各界的大力支持。我们的思想来自于产业界、学术界、政府官员的反复沟通和碰撞。成书之际,谨在此表示深深地感谢。他们是(排名不分先后)甲骨文产品战略部总监刘松、用友集团董事长王文京、拓尔思总裁施水才、启明星辰首席战略官潘柱廷、上海证券交易所总工程师白硕、神州数码CTO谢耘、神州数码徐拥军、民生证券CIO颜阳、SAP全球数据库解决方案亚太及日本区技术总监卢东明、百度公司多媒体部副总监余凯、京东商城副总裁李曦、北京大学教授姚远、工信部电子科学技术情报研究所陈新河、工信部软件与集成电路促进中心陈越等。

感谢网友@尹锴_ink@夏明武,他们慷慨无私的提供了大量的资料和职业感悟。感谢我的写作团队,他们利用业余时间帮我收集、翻译、整理资料,校对文字。其中刘丰(第八、十一章)、闻学臣(第五章)、李隽钦(第四章、第十三章)甚至参与撰写了部分章节。我的写作思路和风格时常调整,导致大家许多工作成为无用功,收集大量资料却无一采用。尽管如此他们依然任劳任怨,志愿付出。他们是蒋传臣、靳松、陆安、刘丰、许文星、闻学臣、魏增、金慈航、尹佳、丁新、安征、王萌、曹宇峰、孙思远、徐湘童、王宁、吕殷楠、宋航、胡博、杨宣华、王东莹、何全、王宁、魏芳、曾奕恺、胡韦力、扈培培、赵晖、刘翔、刘笑逸、李隽钦、冯达、葛婧瑜。

感谢摩宝时代为本书提供的二维码支持。

感谢清华大学出版社的信任与等待。年初我就签了合约,拖到岁尾才仓促成稿。

再次感谢!

赵国栋

20131月于北京

(连载)大数据时代的历史机遇——产业变革与数据科学1-LMLPHP大数据的历史机遇目录.docx

08-30 07:01