直击亚马逊Alexa Prize对话机器人大赛，中国小伙带领华盛顿大学拿下冠军

2018-03-02

这场竞赛的另一大胜者是显而易见的：那就是亚马逊。

【猎云网（微信号：ilieyun）】3月2日报道 （编译：堆堆）

亚马逊如今正和竞争对手一同深陷“对话式人工智能”的阵地战中。为此，公司组织了一场竞赛——目标有些古怪，那就是编造一个能进行短对话的机器人。

第一个互动者是一位肌肉发达、50岁左右的男性。他走进一间会议室，坐在了一个低矮的蓝色扶手椅上，椅子前方是很多的摄像头以及棚灯。他所在的位置被棚灯照射着，屋内其余地方都是黑暗的。他盯着一个黑色、冰球状的物体——亚马逊的Echo，说道：“Alexa，我们来聊天吧。”

“早上好，我的朋友。”一个女性声音回应道，与此同时Echo上方闪烁着紫光。它又说道：“现在是下午吗？我不太确定。”

“是早上。”男士回答道。

“那太好了，早上的话所有人都元气满满......那么，你今天过得怎么样呢？”

“很不错，你呢？”

“我还是比较忙，人们一直在跟我聊天......不过，给你说个笑话。这是Reddit上最新的帖子：牙膏只不过是清洗嘴巴的肥皂。”

顺着大厅向前，在另外一间会议室里，十位亚马逊员工戴着耳机坐在长桌旁，监控着这些客套话。而在另一间房里，三位男性则被黑色幕布封锁在小隔间里。他们同样戴着耳机，前方也有摄像头进行拍摄。最后在控制中心里，拍摄员工在一个大屏幕上监控着所有发生的细节。

这场声势浩大的行动发生在去年11月份，为期数月的竞赛进入了最终的评判阶段。全球最顶尖的计算机科学研究生组成了15支队伍，亚马逊想要让他们开发出一个“能够连贯与人类就热门话题交流20分钟时间的社交机器人”。如果有队伍成功了，那么这一支队伍就可以尽享学术荣光，并获得光明的未来。成功的队伍还会获得巨额奖金——亚马逊将其称作是Alexa Prize。

近几年来，亚马逊一直在迫切探索声音人工智能。其野心堪比它想要征服零售行业的欲望。公司已经安排了5000多人来研发Alexa平台。从2015年起，据称亚马逊已经卖出了2000多万台Echo。亚马逊相信未来有一天，人工智能可以做到的事情远不止于控制灯光和播放音乐。它们还会开车、确诊病症，渗透到我们生活的方方面面。声音将成为主要的交互界面，而对话——实用、具备信息量、友善且有趣的对话——将成为最终的产品。

但早期的成功还有野心却将亚马逊推落悬崖，落入了一个广大但却充满威胁的山谷。如今，Alexa和所有的声音助手一样，时常无法理解用户的声音。人们快速接受并大范围使用该平台，这也促使消费者产生了对于高效语音助手的需求。在设置闹钟以及完成一次性指令方面，Alexa表现不错，但是语言是一个互动社交模式。“人们希望Alexa能够像朋友一样和他们进行交流。”负责Alexa人工智能研究团队的Ashwin Ram说道。参与人类对话已经成为了人工智能行业最棘手的一大难题之一，而亚马逊却一头栽入其中。

Alexa Prize还算不上是第一个试图从聊天机器人那里建立人机融洽关系的竞赛。过去三十年来，每一年都会有少量计算机科学家和爱好者聚集在一起，试图角逐罗布纳奖（Loebner Prize）。参赛者需要让裁判相信聊天机器人其实就是人类。这些年来，这一奖项引发了部分争议——一些人工智能研究学者称其是在做秀——而与此同时这还引起了大家对于机器与人类之间存在何种差别的深思。但是Alexa Prize却有一些不同。首先，奖项的目的并非是要愚弄大家相信Alexa是真人。其次，这场竞赛的规模——其背后花费的人力、财力和计算力——是巨大的。2017年的几个月内，美国境内的每一个人都会对他们的亚马逊声音设备说“Alexa，我们来聊天吧”，这些设备能够与随机选择的测试机器人进行对话。之后，他们会受邀对此进行一到五星的评分。这些机器人会被数百万互动者进行评分，这就使得Alexa Prize竞赛成为了全世界最大的一次聊天机器人对决（从数量级来看）。

图为Alexa Prize大奖赛裁定时亚马逊的控制室

对话式人工智能的探索使得亚马逊、苹果、Facebook、谷歌以及微软开始同台竞争两大重要资源。第一个资源是有限的：计算机科学领域顶尖的博士（这部分人由于稀缺性，他们的薪资高达六位数）。第二个资源是无限的，但却很难获得：对话本身的样本——人们会收集数十亿段对话，并将其数字化处理，用于训练人工智能。在此背景下，Alexa Prize就是亚马逊的一记妙招。这项比赛不但能够搜索到全球最顶尖的人才，还能够以对其有利的价格挑选人才。此外，它还为亚马逊提供了收集对话数据的机会，这是其他任何一家科技公司都不曾拥有的珍贵资源。

当亚马逊在2016年9月29日首次宣布这项比赛时，22个国家超过100支队伍提交了申请。基于技术优势和独创性，公司挑选出了15位竞争者。除了进入总决赛的三支队伍以外，其余12支队伍都会获得10万美元的奖金，公司也会为其提供后续支持。

和大学生篮球联赛一样，参赛队伍既有“系出名人”、夺冠呼声最高的选手，也有出色的竞争者和勇气十足但相对弱势的参赛人员。蒙特利尔大学的队伍拥有深度学习开创者Yoshua Bengio担任指导教师，这一点自然而然就让他们成为了种子选手。中段队伍来自于一些知名院校，如华盛顿大学、普林斯顿大学以及苏格兰首屈一指的研究型大学赫瑞·瓦特大学。之后就是一些弱势参赛者了，比如说布拉格的捷克科技大学。

在捷克科技大学的团队中，其中一名留着整齐山羊胡的成员叫作Petr Marek。在这次比赛之前的暑假，他花了一些时间去开发被他称之为是“愚蠢”的聊天机器人平台。与此同时，他还要作为童子军带队者穿越波西米亚的森林。当他听说了Alexa Prize时，Marek很担心团队所在学校不符合要求。他想：“不管了，至少可以尝试一下，但我们和那些顶尖大学相比，赢的几率不大。”在获悉团队进入比赛之后，他们决定给机器人命名为Alquist。这个名字起源于20世纪初捷克首次使用“机器人”一词的戏剧。在剧中，机器人占领了地球，而Alquist成为了地球上最后一名人类。

15支队伍都面临着一个对比赛有着决定性意义的问题：社交机器人的大脑中，究竟哪一部分需要手动编制，哪一部分又应当采用机器学习呢？手动编制是相对传统的方式，这指的是工程师会编写大量规则组合来指导人工智能进行理解和回应。而相比之下，数据趋向型的机器学习就是让计算机通过大量的数据学习对话。

所有的队伍都知道机器学习是一个更好的方式，因为它能解决分类问题，即神经网络会在繁杂的数据中找到统一的特征。举个例子，语音识别对于机器学习来说就是一个很简单的事情。但是对语言作出反馈，这一点机器学习还有很远的路要走。这也是为什么即便是在Alexa和Siri的数字大脑中，传统的手动编制方式也依然会被考虑的原因。因此，比赛中的每一支队伍都很难抉择——这和科技圈差不多——你很难在两种方式之间找到平衡。

手动编制已经过时了，机器学习正处于白热化阶段。Marek和他的团队成员知道所有强大的院校都会极度偏向后者，因此他们认为自己也应当如此。为了帮助Alquist自动回应Alexa用户，团队利用了从Reddit用户那里获得的300万条消息反馈组合，用来对神经网络进行训练。让他们失望的是，最后的结果“非常糟糕”。Alquist会在用户从未说过的话题和参考内容之间随意跳转。它会发表一个观点，之后又否认。“和这样的人工智能进行对话，这既无意义，也同样无趣。这太荒唐了。” Marek在团队博客上写道。

之后，团队又尝试了手动编制，这让团队可以更好地控制机器人。不过Marek表示了担心。该系统非常依赖用户的善意，成功与否取决于用户是否用简单的句子进行对话并且跟随机器人的引导。如果碰到不合作的用户——比如说通常不太耐心的人——这款社交机器人就很容易失败。

获胜的三支队伍中，还有一支队伍表现稳定，那就是华盛顿大学。这支队伍选择了一个较为折中的方式，它在系统中结合了基于规则的编程以及机器学习。该系统的优势似乎源于28岁团队负责人郝方的性格。他来自于中国南部山城宜春市。他活泼好动，性格开朗，团队希望这款社交机器人也能同样如此。那他们该如何创造出可以让人们乐在其中的对话呢？

为此，华盛顿大学团队调整了系统，过滤掉那些令用户感觉糟糕的内容。郝方表示，该系统应该寻求“更有趣、令人振奋、对话式”的内容，而这些内容通常来自于 subreddits板块，比如说 Today I Learned、Showerthoughts 和 Uplifting News。这些语料可以让社交机器人迅速生成一些活泼的内容。

该小组还手动制作了大量的反馈话术，比如说“你似乎是想谈谈新闻”、“很高兴你喜欢它”，“对不起，我没明白”一类的话。健谈的同时还要注重人们的情绪，所以华盛顿大学团队对 2000 个对话样本的情绪特征进行了手动标记，并用它们来教会社交机器人识别人类的回应——高兴、厌恶、愉快、好奇——并做出相应的反馈。

比赛最后，UW团队赢得了冠军，登上了舞台。Prasad交给了他们一个巨大的支票——50万美元。Prasad之后也宣布了亚军和季军，分别是捷克科技大学以及赫瑞·瓦特大学，它们分别获得了10万美元以及5万美元的奖金。

那么亚马逊、这些团队以及人工智能圈能从这场手动编制以及机器学习的辩论中得到什么结论呢？冠军UW在这两者之间是不偏不倚，而偏向手动编制的捷克队伍最终收获了亚军。最积极使用机器学习的是第三名赫瑞·瓦特大学。即便比赛结果无法明确解答这一问题，但一个混合技术系统的胜利向Ram以及其他人工智能专家已经说明了答案。Ram表示我们正在开始尝试去探索如何以最好的方式将两种技术结合在一起。

所有的参赛选手都认为更多的对话数据才能最好得推动机器学习的发展。而这一点也成为了亚马逊自己的“战利品”。通过这次比赛，用户和社交机器人进行了数百万次互动，总计超过10万个小时的聊天内容。这一切都成为了公司的官方财产。如此一来，这场竞赛的另一大胜者是显而易见的：那就是亚马逊。