编者按:在刚刚结束的微软Build 2018开发者大会上,微软小娜展示了自己是如何智能地预定会议室的,似与常人无异,但实际上人工智能还远不像你想的那么聪明!微软亚洲研究院院长洪小文在接受“21世纪经济报道”采访时谈到,现在的人工智能更像是一个无法归纳和理解的黑盒,只能匹配预设的模型并根据输入导出结果。相反,人类却是能够理解、总结、预测的白盒。AI可以帮助人类完成很多专业性任务,而面对需要分析决策的环节,则更需要人类的智力。本文转载自“21世纪经济报道”(微信号:jjbd21),记者:杨清清。
当地时间5月8日(北京时间5月9日凌晨),2018谷歌I/O开发者大会开幕。在整个大会过程中,最抓人眼球的莫过于谷歌助手打电话以假乱真:在预订理发店时间时,谷歌助手不仅清晰表达了自己的预订诉求,甚至在面对复杂对话场景应对自如。例如,当理发店服务员告知它所要求的12点到店时间排满、最近时间只有下午1:15分的时间段时,它再次询问是否有早上10点到12点排期。
就在前一天的2018微软Build开发者大会上,微软的语音助手小娜同样“秀”了一笔自己的“表演”。在智能会议室的现场展示环节,演示人员利用搭载了小娜的智能设备语音预订了会议室,甚至,当每位参会人员进入会议室时,小娜还能够念出其名字、主动打招呼以及进行各种交互,与一位常人无异。
“今天,无论是语音识别、文本翻译、或是计算机视觉等技术所支撑的人工智能,都没有真正理解自己所接受信息的含义。它们只是在匹配预设的模型。”5月8日,在接受21世纪经济报道记者(以下简称《21世纪》)专访时,微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文直言,“它只是一个黑盒,无法归纳和理解,只知道根据输入导出结果。”
与之相对应的是,人类能够理解。不仅是理解自己已知的概念,甚至面对未知的事物,也可以根据自己过去的经验去尝试理解,去归纳总结,举一反三,这便是所谓“白盒”。
值得注意的是,白盒智慧,但存在偏差,黑盒机械,但更加公正,这其中各有优劣。因此,洪小文认为,AI可以帮助人类去做一些专业性的任务,面对需要分析决策的环节,则需要人类的智力,“AI+HI(人工智能+人类智能)非常重要。”
不过,尽管AI本身仍处于黑盒阶段,但搭载AI终端的智能边缘计算正在扑面而至,这一点,从今年微软Build开发者大会上频频提及智能边缘计算,并与大疆无人机、高通合作开发相关开发工具包便可见一斑。在洪小文看来,智能边缘计算必将发生,也特别值得期待。
《21世纪》:今年Build大会上现场展示了智能语音技术。当前国外智能语音技术已经找到了智能音箱作为一个较为普及的落地场景,国内则仍在苦苦探索。这背后是中文语音技术本身的问题吗?
洪小文:即便拥有方言,中文的语音识别也并不难于英文,只要收集到足够多的数据,就不是问题。国外智能音箱(尤其是搭载亚马逊Alexa的Echo)之所以普及,还是与亚马逊电商业务本身有关,外国用户习惯在亚马逊上购物后,就愿意尝试使用更方便的智能音箱来购物。另外外国用户家里空间大又喜欢听音乐,本身就有音箱的需求,所以这种形态的终端更容易普及。
至于国内用户,平时更喜欢与自己的智能手机交互,在手机上体验购物、听音乐等功能,对于这些用户而言已经足够便捷和直观,并已经养成了这样的习惯,这些因素导致智能音箱在国内没有普及。
《21世纪》:就语音技术而言,你提到识别不是问题,那目前的问题在哪里?
洪小文:当前人工智能对语音的反馈包括三个阶段:识别、理解和提供服务,问题的难点是在理解上。由于要理解的内容本身拥有无穷组合,因此便没有精确模型,无法只用建构模式去进行,这还不论更复杂的言外有意的情况。今天的AI只是一个黑盒,但理解本身是白盒,也就是人类拥有的能力:不仅理解所接受的信息本身,甚至还可以对本身不了解的信息进行猜测,部分理解其含义。这对于今天的AI而言非常难解,需要更新的技术才行。
《21世纪》:存在黑盒与白盒的应用界限吗?或是黑盒必将需要转变为白盒?
洪小文:对于一些推理过程而言,一定需要白盒,没有白盒的系统很难进行推理。即便黑盒可进行推理,也只存在于某个输出刚好是下一个输入的情况下,这是黑盒的局限性。
但黑盒也有其好处,从某个角度而言,它不会存在偏差,是什么就是什么,非常公平。白盒推理存在既定立场,例如人类心理状态中多少会有一些偏见,比如关于堕胎、性别倾向等各种容易引起争议的问题,便是源于每个人的既定立场。在这个立场下推理出的东西必然会有所偏颇。黑盒就不会,因此类似于法官这样的角色就需要黑盒的思维,怎样输入就怎样输出。
因此,当前的合理状态应该是AI+HI(人工智能+人类智能)。AI可以致力于流程性分析,但深度分析、理解和创造仍需要依靠人类。
《21世纪》:人工智能尽管还处于黑盒阶段,但已不可解释和理解,即将无法确切了解其内部运作方式,进而导致人类对人工智能产生不信任感。事实上,最近欧盟也在力图推动AI算法透明化。你如何理解这种不可解释AI?
洪小文:先来说一说可解释AI。可解释AI拥有两层意义,第一层意义是指,输入信息后得出结果,能够知道得出这个结果的原因,从这个角度而言,我认为它可以解释,只是解释的过程非常复杂。比如AlphaGo使用增强学习后,在棋盘上最终落子,你无法讲明其背后的决策规则,但你了解它在使用增强学习得出这一步,而这一步的目的是赢棋。知道结果,只是不知道结果背后的规则究竟如何,它一定有规则,只不过这个规则繁琐到无法穷举,这就是可解释AI。
通常所说的不可解释AI,在我看来其实是第二层意义的可解释AI,即一般人无法理解的结果,例如将黑人辨认为猩猩等。在我看来,这依然是可解释AI:之所以出现这样的结果,是因为训练数据里拥有偏差,因此还是可解释。
此外,设计AI系统的人是否能预期到输入信息、得出结果后的后果。如果能够预期到这个后果,一定会准备一套理论去加以解释,即便遇到危机事件,也能拥有一套自己的逻辑。
《21世纪》:所以从技术角度而言,通常意义的AI不可解释性是数据偏差导致的,这种情况下AI技术人员可以有怎样的作为?
洪小文:数据偏差所导致的结果很严重。以实际生活为例,比如风控系统判定某人无法贷款,原因是此人来自一个平均收入较低的区域,根据这个基础规则设定下的AI就会进而导致偏见甚至歧视。对于技术人员而言,能否预先知晓有这样的不合理漏洞,甚至最好能够将漏洞堵住,就是其职责所在。
《21世纪》:无论人工智能当前实力如何,但毕竟已经有了许多应用甚至是在终端的应用。相较于往年而言,今年微软Build大会上智能边缘计算高频出现,您如何看待边缘计算未来适用的行业和场景?
洪小文:AI应用刚发生时,绝大部分都发生在云端。但如今,以视觉应用为例,视频画面采集设备正在从4K进化到8K,相应地像素帧数也在大幅提升,导致数据量呈现爆发式增长。即便未来5G技术发展,但也存在巨大的数据量需要传输。因此我大胆预测,许多视觉相关的服务、智能工厂等场景会产生大量终端计算,即边缘计算。
《21世纪》:边缘计算场景的特点是怎样的?
洪小文:大部分的数据训练会发生在云端,因为云端在数据收集和训练上存在优势。但诸如智能工厂、智能安防等场景需要有即时反馈,需要当机立断,因此大部分终端至少需要执行和辨认的能力。
除了传输速度之外,还有传输能耗的问题,大量数据传输必然会存在大量能耗。事实上,智能工厂中即便终端要与云端互动,也是短途传输再聚总传送至云端。既然有一个聚总过程,就可以在这个过程中本地赋予一些处理和智能的功能。从能耗的角度而言,这种方式也最为节能。所以终端计算必然会发生。
你也许还想看:
● 开源 | 微软开源嵌入式机器学习库ELL:把人工智能扩展到边缘设备
● 微软Build大会为开发者全面展现智能云与智能边缘计算新机遇
想参加微软中国首届人工智能大会,一探人工智能的风采?点击下面链接参与我们的互动活动,有机会赢得现场门票邀请码!
感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:[email protected]。