【2011图灵奖得主】我眼中的Judea Pearl
来源: 叶星遥的日志
2011年的图灵奖花落UCLA计算机系的Judea Pearl教授。图灵奖是计算领域的最高奖,由于近年来这个领域的兴盛也算是很有名气了。奖是今年3月份公布的,所以已经不是新闻了。不过我在UCLA这几年,跟这个老师算是有点缘分,就借这个奖的东风,讲一点我所知道的八卦吧。
Judea Pearl是犹太人,这点从名字里也可略知一二。Judea在英语里念“朱迪亚”,但系里相熟的老师会按照希伯来语的本来念法念成“Yuda-于达”。这是以色列南部一个省的名字,更有意思的是按照希伯来语的写法Judah,就是大名鼎鼎的出卖了耶稣的徒弟犹大了。Pearl大家知道是宝石的意思,之前我写过的UCLA另一个著名犹太教授则姓钻石Diamond(Guns, Germs and Steel的作者)。想想也不奇怪,英语里珠宝Jewelry这个词就是从Jew这个词根造出来的嘛。
Pearl大叔有四个孩子,在拿图灵奖之前,在主流媒体上因为他唯一的儿子Daniel的事情而小有名气。Daniel Pearl是华尔街日报的驻外记者,9-11后在巴基斯坦采访时被恐怖组织抓住,先放出了一段审问视频,几天后被斩首碎尸。这是美国记者遭受过的史上最恶劣事件,可以想象当时Pearl大叔的悲痛。此后大叔为了缓解各民族之间的仇恨多番奔走,筹办基金会,组织讲演、座谈等,这成了他晚年生活的一个重心。
言归正传,说说学术上的事情。Pearl大叔获奖是因为他对人工智能AI领域的突出贡献,其中最重要的一项是在1980年代将概率论这一数学工具引入人工智能建模。学过AI课的同学应该记得,经典的AI方法里用的是逻辑范式来做建模和推演,是没有概率的。有了概率这个工具后,我们才可以大规模的定量表示不确定事件发生的可能性和所有这些可能状态之间的关系。Pearl提出,最好的建模工具是概率图模型,又称贝叶斯网络,用节点表示我们感兴趣的变量,用边表示变量之间的相互影响关系,用条件概率定量表示这些影响。做机器学习的人会知道,这已经是多如牛毛的各种应用里的建模规范了。
与此同时,Pearl还推演出了解这个模型的Belief Propagation算法,此算法的简明高效是概率图模型流行的最重要原因。这个算法做的事情是,当我们知道若干事件的相互影响关系(也就是知道边和条件概率),但只能观测到一部分点的状态时,可以以贝叶斯公式为基础算出其他点的完整概率分布。这个算法在树状图上是精确解而且非常快,实现起来很像是动态规划的流程,但后者并不是针对概率的算法。另外,BP也可以用来在有环图上迭代多次得到近似解,相关的问题目前仍是个活跃的研究前沿。
就这样,Pearl大叔在大部分计算机内存还装不下多少个字节,大部分AI人士还对概率这一外来物种半信半疑的时候,就已经完成了未来几十年AI领域的奠基工作。和所有先行者一样,Pearl大叔在领域里也是饱受前辈和同辈大牛们的质疑和攻击。于是他做了两件事情,一是写书,他88年出版了一本厚书详尽阐述他的理念、数学模型、和应用场景;二是等待,等到计算机软硬件终于发展到了一定程度,可以把概率图模型读进内存,可以应用在充满不确定性的实际问题上以后,他的学说终于发扬光大了。
UCLA在宝石大叔的职业生涯中起到了很重要的作用。大叔是1960年代末从纽约某野鸡大学博士毕业的。他常爱说的一个段子是,当时各校负责招聘的老师看着他的简历,总是摇着头跟他说“我从来没听过这个学校,从来没听过”。UCLA的老师也这么跟他说,但最后还是招了他,大叔说这是他人生里“除了娶我太太以外最重要的事情”,也就此扎根在这里,功成名就后也没有离开。我想当年的UCLA还是锐意进取,颇有远见和气魄的吧。另一个和UCLA有关的图灵奖得主,被誉为互联网之父的Vint Cerf,就是1970年代初从UCLA博士毕业,并且完成了世界上第一个互联网ARPANET的首次试验的。那个年代的UCLA计算机系在NRC排名上高居第7,给了大叔一个很好的平台去传播他的工作。
10年春天,UCLA还开了一场群贤毕至的研讨会,专门讨论和表彰宝石叔的学术贡献。我没有去开过IJCAI、NIPS这样的AI顶级盛会,但这个研讨会的到会阵容颇可与之相媲美。每个人对Pearl叔都是满口赞誉之词,尤其当我看到当前领域内的最大学霸,伯克利的Michael Jordan(你没看错,是叫这个名儿)以毋庸置疑的口气说“Pearl教授是AI领域最好的学者,没有之一”的时候,我想,也许图灵奖快来了吧,没想到真的料中了。
我09年的时候上过宝石大叔的课,课的内容是因果论Causality。因果论是80年代之后,大叔主要研究的问题。 概率这东西有个局限,就是只能表示两个事件之间的相关性correlation,不能表示先后因果关系。这个差别是人工智能至今仍赶不上真正人脑的制约之一,自然是个重要的问题。大叔的想法是在特定的图结构和概率分布下,可以判定图里的某些边是“因果边”,重复这个过程便可逐步找出所有可辨别的因果关系。他觉得自己已经在理论上解决了这个问题,可这么长时间下来无论是学界还是业界都是应者了了,怎么回事呢?在被这门课的习题和大作业折磨过以后,我感觉有两个难点,一是直观得到的图模型通常不满足推出因果边的条件,理论上虽可以自动转化,但算法复杂度高的没有意义;二是真实数据中有相当多的噪音,基本不存在可以推出因果关系的理想情况,理论也没告诉我们如何设个阈值。本来用概率的优势就在于可以在数学上较严谨的处理噪音,从而抓住主要矛盾得到直观的图模型,可是要找因果就不能兼容这些优势,也许需要换个思路吧。
客观的说,宝石大叔在讲课和带学生的能力上并不出类拔萃。他的课讲的云里雾里,思维太过跳跃性,没有一个清晰的线条。通常我会认为这是没有理解透的表现,不过因果论实在太难,或许是我们这些学生跟不上他的脚步吧。大叔的论文和书籍大多都是个人独立作者,带过的学生很少,也没有谁毕业后在知名大学任教,多少反映出别人难于和他合作。我到UCLA的第一个Orientation上就认识了他的一个巴西人学生Elias,后来在Google实习的时候又认识了一个从UCSD投奔他的台湾女生Eunice,到如今他们俩都已在因果论的泥潭里纠结了许久,苦于得不到有效的指导,也没有同行可以切磋。做他的学生得要有超乎常人的毅力,而就算这样也不见得能有什么成果。不过图灵奖是个重大利好,希望这两位朋友能因此受益,持续他们的学术生涯。
除开捍卫自己观点的时候,宝石叔是个很和蔼的人。和他交谈,感觉到的是一个极为亲善的长者。上他第一堂课时他发现我是班上唯一一个来自计算机系之外的学生(我在UCLA属于统计系),便开始对我特殊关照,常常问我懂了没有,有什么观点。虽然我解