《麻省理工科技评论》公布了 2018 年全球十大突破性技术,“对抗性神经网络”即“生成对抗网络”作为突破性人工智能技术赫然上榜。这家全球最顶级科技杂志编辑部对这项革命性技术给出的评价是:它给机器带来一种类似想象力的能力,因此可能让它们变得不再那么依赖人类,但也把它们变成了一种能力惊人的数字造假工具。
实际上,这是一个青年科学家的故事:今年 33 岁的青年科学家 Ian Goodfellow 在过去数年中通过让神经网络互打擂台创造出了一款威力强大的 AI 工具。而如今,你、我、他都需要面对这一发明所带来的后果。
在 2014 年的某个夜晚,为了庆祝一位研究生同学成功毕业,Ian Goodfellow 与他的小伙伴们来到了加拿大蒙特利尔市,人气极旺的 Les 3 Brasseurs 酒吧。就在大家觥筹交错之时,他的朋友们突然向他问起了手上一个项目所遇到的难题:如何开发一款可以自己创造图片的程序。
那时候,研究人员已经开始使用神经网络来试图创造逼真的图片。但是,这些由计算机创造的图片的质量往往十分低下,比如人脸照片,要不然会是十分模糊,要不然就会出现少一只耳朵这种错误。Goodfellow 的朋友们当时计划,首先对照片的各种元素进行复杂的统计分析,然后用分析结果对神经网络进行训练,让它学会如何生成逼真的照片。而由于这将需要海量的计算力,Goodfellow 当场就直接跟他们说了这不可行。
图 | Ian Goodfellow
但是,科学家思维让他在喝酒之余也止不住对这个难题的思考。他突然间获得了一个灵感:如果再多的数据也无法让一个神经网络学会如何生成逼真的图片,那么两个相互对抗的神经网络可不可以呢?对此,他的朋友们表示保持怀疑,但他决定当晚回家就动手试试。背着他熟睡的女友,Goodfellw 直接一口气编程到清晨,把他脑中“两个对抗的神经网络系统”给创造了出来。而这个系统在首次测试时,就成功了。
如今,他四年前那晚上所发明的技术被称之为 GAN,即对抗式生成网络(Generative Adversarial Network)。而在短短四年内,这项技术给机器学习领域带来了巨大的影响,也让它的发明人成为了 AI 领域里的一名新生代"教父"。
在 GAN 出现之前的几年里,AI 领域的研究人员们通过深度学习(Deep Learning)而实现了惊人的突破。只要你为一个深度学习系统提供经足够多的图片,它就能学会分辨出“即将过马路的行人”这种图片识别能力。正是通过深度学习,自动驾驶汽车以及驱动 Alexa 和 Siri 等虚拟助手的对话技术才能成为现实。
然而,虽然基于深度学习手段的 AI 系统可以学会识别东西,但它们非常不擅长创造东西。GAN 的目标则是为机器带来一种类似人类想象力的能力。
如果我们实现这一点,我们不仅可以让机器学会如何作画或作曲,我们也可以减少机器对人类指导的需求。毕竟对于 AI 系统来说,它对于这个世界以及其运转方式的认知都是必须由人类提供的:开发者需要告诉 AI 系统所输入数据究竟是什么,比如在一百万张图片里,哪些是行人过马路,哪些不是。而这不仅仅需要大量的人工和费用,这也限制了 AI 系统处理脱离其训练内容的能力。通过 GAN,未来的 AI 系统将更善于使用没有经过大量处理的原始数据来进行训练,并且可能在不需要外部指导的情况下就能自己学会所需要的。
这意味着,我们的 AI 技术将往“无监督学习”方向迈出一大步,极大的简化、加快 AI 产品的普及。比如,一辆从未行驶过一公里,在车库里就能学会如何处理各种情况的自动驾驶汽车,或者一台从未去过仓库,在厂房里就能得知仓库内一切障碍的仓储机器人。
想象与反思的能力正是人类的本能之一。而当未来的科技史学家回望时,他们很可能将 GAN 视为迈向具有类人意识的机器的一大步。Facebook 首席 AI 科学家 Yann LeCun 曾称 GAN 为“过去 20 年里深度学习领域最酷的主意”。另外一名 AI 大牛,百度前任首席科学家吴恩达表示,代表了“一个重大的基础性进展”的 GAN 激励了全球日益增长的研究者社区。
GAN 之父 II:AI 搏击俱乐部
如今,Goodfellow 已是谷歌 Brain 团队中的一名的研究科学家。而当我最近来到了加州山景城的谷歌总部,对他进行采访时,他对他的明星地位依然十分惊讶。作为这项技术的发明者,他现在绝大多数的时间都用于对抗那些想把它用于非法目的的人。
GAN 的魔力在于两个神经网络之间的对抗。它模拟的是一个师出同门的赝品大师与鉴宝专家之间尔虞我诈的过程。师出同门,是因为这两个神经网络所使用的训练数据集为同一个。这两个神经网络一个叫“生成网络”:它的任务就是尽力合成最逼真的输出,比如一张照片或手写文字;另一个叫“判别网络”:它的任务是把这些输出与来自原数据集的照片进行对比,来判断哪些是真实的,哪些是假的。根据判别的结果,生成网络会调整它合成图片的参数,直到判别网络无法找出真假之间的区别。
就拿去年一个广为人知的例子来说,在那场实验中,英伟达的研究人员使用明星照片对一个 GAN 系统进行了训练,让它学会了如何生成假明星照片。而虽然并不是每一张生成的照片都十分完美,但有些确实可以以假乱真。此外,与其他机器学习手段所需要的数十万张图片来进行训练不同的是,GAN 系统仅需数百张照片就足够精通此道。
图 | 一个用真明星照片训练出来的 GAN 系统可以自己想象出一套假明星照片,而其中绝大多数看起来都十分真实
不过,这种“想象力”的能力还十分有限。就拿一款用大量狗狗照片训练出来的 GAN 为例,如果我们让它生成具有不同花纹的狗的照片,结果可能十分逼真。
但是,它并不能想象出一种全新的动物,比如猫。而训练所使用的数据集的质量,也会对结果带来巨大的影响。在另一个例子中,一个被要求生成猫咪图片的 GAN 系统突然开始吐出含有各种字母的猫图片,十分诡异。在分析后,研究人员发现,这是由于该系统训练所用的数据集包含了来自网上的猫咪表情包,因此导致它误认为英语单词也是属于猫的一部分。
图 | 让 GAN 完美的工作并不简单,一旦出现问题,结果可能十分诡异
而据华盛顿大学机器学习教授 Pedro Domingos 表示,GAN 的性能也并不稳定。如果一个判别网络十分容易骗,那么它的生成网络的输出看起来就不会十分逼真。而调试这两个对抗的神经网络并不容易。这也解释了为什么有时候 GAN 会吐出奇怪的东西,比如有两个头的动物。
当然,这种挑战并不会让研究人员气馁。自 Goodfellow 与其他几位研究人员在 2014 年首次发表 GAN 相关的研究成果后,如今已有数百篇关于 GAN 的论文。一名 GAN 技术的粉丝甚至创办了一个叫“GAN 动物园”的网站,志在记录这项技术的各种版本。
可以立刻应用这项技术的领域很明显,就是游戏业和时尚业这些涉及大量图片的行业,用来回答比如“一个在雨中奔跑的游戏人物看起来会是什么样?”这种问题。但是在未来,Goodfellow 认为,GAN 将驱动更重大的突破。“我们有很多科学和工程领域需要优化一些东西”,他说道,并举了需要变得更有效的药和更高效的电池为例,“这将是下一波潮流。”
图 | Goodfellow 的发明可以用于创造各种东西,包括新的装修设计
在高能物理领域里,科学家们会使用威力强大的超级电脑,来对欧洲核子研究中心(CERN)的大型强子对撞机(LHC)这种机器中可能出现的数百种亚原子粒子之间的互动进行模拟。而这些模拟不但很慢,还需要大量的计算力。因此,美国耶鲁大学与劳伦斯伯克利国家实验室的研究人员为此开发出一款 GAN:在使用现有的模拟数据进行训练后,它可以以更快的速度,非常准确地预测某种粒子将会有何表现。
医疗研究则是另外一个极具潜力的领域。对于隐私的担忧意味着研究人员有时候无法得到足够的真实患者数据,因此无法对药物效果进行分析。而宾利法尼亚大学的 Casey Greene 表示,GAN 可以通过生成与真实医疗记录一样高质的假记录来解决这个问题——这些可以被大量分享的数据将被用于推进医学研究,而真实的记录则可以受到严密的保护。
GAN 之父 III:坏人们
但是,在 GAN 光明的未来的背后也有黑暗的一面。对于希望散播假新闻来操控股市、选举等社会各方各面的坏人来说,一个专门为产生以假乱真的赝品而设计的机器简直是个完美的武器。AI 工具已经被用来把别人的面孔放在成人女星的身体上,或把假话从政客的嘴里播出来。而虽然 GAN 并没创造这个问题,它却将加重这个问题。
达特茅斯学院数字取证教授 Hany Farid 正在开发更好的假视频识别方式,比如探测呼吸时面色会出现的变化,因为 GAN 很难将这一点完美的复制出来。但是他警告说,GAN 将会学会适应:“我们在根本上就处于弱势地位”,他说道。
而这场猫和老鼠的游戏也会发生在数字安全领域中。研究人员们已经开始重点警告“黑匣子”攻击的风险,即用 GAN 来猜出安全软件用来识别恶意软件的机器学习模型。如果一个攻击者猜出了守卫者算法的工作方式,他就可以避开安全软件,向系统上传恶意的软件。而同一种手段也可以用来躲避垃圾邮件过滤器等其他安保手段。
Goodfellow 对这些危险十分了解。如今,他正在谷歌带领一个专门注重于把机器学习变得更安全的团队。他警告,AI 社区必须从前几波创新浪潮中,技术人员们事后才考虑到安全和隐私这一点学到教训。因为当他们终于发现其中的风险时,坏人们已经领先一大步了。“很显然,我们已经错过起跑线了,”他说道,“但我希望,我们可以在前进太远之前,在安全上面做出足够重大的突破。”
不过,他并不认为“赝品”会有一个纯技术方面的解决办法。事实上,他认为我们需要依靠社会方面,比如通过演讲与辩论课等方式来培养孩子的批判性思维。
“在演讲与辩论时,你会与另外一名学士进行比赛”,他说道,“你就会思考如何给出误导性的说法,或者给出正确又非常有说服力的说法。”但是,虽然他可能是十分正确的,但是他对于技术无法解决假新闻的问题的说法,可能并不是许多人想要听到了。