深度学习之父Geoffrey Hinton：AI实为反向传播，计算机与生物结合可打破局限

2017-11-22

值得人们思考的问题是，我们是否已经将反向传播理论利用透彻。

【猎云网（微信号：ilieyun）】11月22日报道（编译： Shane）

编者注：本文作者为James Somers，外媒科技专栏作家。

在AI领域，几乎每个人们所熟知的技术革新都仰仗于三十年前出现的突破性理论。想要跟进AI技术的发展步伐，人们必须考虑由此带来的严重局限性。那本突破性的著作出版于20世纪80年代中期，阐述了建立多层次神经网络的方法，为之后十年AI的发展奠定了基础。

站在我身边的Jordan Jacobs是我们所处的Vector 人工智能研究院的创建人，这间研究院今年秋天刚刚开幕，旨在成为全球人工智能的技术中心。

Jacobs透露，之所以将研究所建在多伦多是因为“深度学习之父”——Geoffrey Hinton也在此地，他是AI浪潮翻涌之下的技术靠山。“回顾过去的30年时间，Geoff可以称之为深度学习，也就是我们所认为AI领域的爱因斯坦。在AI领域的顶尖人才中，Hinton一人贡献的可引用文献数比位列他其后三人的总和还要多。他门下的学生和博士后遍布苹果、Facebook和OpenAI等大公司的AI实验室; Hinton自己是Google Brain AI团队的首席科学家。事实上，AI的最近十年几乎每一个成就——翻译、语音识别、图像识别和游戏在某种程度上都要归功于Hinton的工作。

VectorAI研究所是Hinton理论的结晶，许多来自美国和加拿大的公司，如谷歌、Uber和Nvidia将作为赞助方为AI技术的商业化做出努力。不用Jacobs开口，资金便源源不断地涌入进来。研究所的两位共同创始人在多伦多地区对公司开展调查表明，现在AI专家的需求量是加拿大每年能够培养数量的10倍。Vector研究所在这场深度学习的全球热潮中，从一定意义上来说刚刚起步：深度学习技术需要先注入资金，然后进行训练、改进和应用。研究所的数据中心正在建设，初创公司纷纷进驻，新一代的学生开始走上这一舞台。

深入学习技术的特殊之处就在于它的中心思想年代已久。 Hinton与其同事David Rumelhart和Ronald Williams一起于1986年出版了一篇突破性文章。该文章详细阐述了一种被称为“反向传播”的技术。普林斯顿的计算心理学家Jon Cohen认为反向传播是“深度学习的根基，几乎一切都与之相关”。

总结一下，现在人们所说的AI即为深度学习，而深度学习实际上就是反向传播，这一点很神奇，因为反向传播已经有了30年的历史。值得人们深思的一点便在于，这样一门技术如何在蛰伏这么久后制造了这一番巨浪。在了解了反向传播的发展历史后，也许我们会开始看清AI目前的局势，特别是开始意识到我们已经走到了一场技术革命的尽头，并非之前所认为的开端。

AI的反向传播

多伦多是继墨西哥城、纽约和洛杉矶之后的北美第四大城市，而其多样化程度则可称为北美之最：多伦多一半以上的人口出生于加拿大境外。来看科技展览的人们并不都是穿着连帽衫的年轻白人，相反，而是各色人种都掺杂其中。免费的医疗保健服务、良好的公立学校、友好的国民，相对稳定的政治秩序等吸引了像Hinton这样的人。

Hinton今年69岁高龄，高挺的鼻梁、薄薄的嘴唇、厚厚的耳朵构成了一张宽厚的英国脸庞。他出生于英国温布尔登，他说话的神情好似在讲一本关于科学的儿童书：口吻里充满好奇、吸引力与解释新鲜事物的渴望。

在20世纪80年代，Hinton就已经是神经网络领域的专家了，那时的神经网络是简化过的大脑神经元与突触网络模型。然而，当时人们坚持认为神经网络是AI研究的死胡同，虽然最早的神经网络——开发于在20世纪60年代的感知器被誉为达到人类水平的机器智能第一步。1969年由麻省理工学院的Marvin Minsky和Seymour Papert发表的《感知器》在数学上证明了这样神经的网络可执行最基本的功能。

这种神经网络只有两层神经元，分别为输入层和输出层。在输入和输出神经元之间存在很多层的神经元，理论上可以解决各种各样的问题，但没有人知道如何训练这些神经元层，所以放到实践中没有任何用处。除了像Hinton这样的几个坚持的学者之外，《感知器》令大多数人望洋兴叹，完全放弃了神经网络。

Hinton的理论在1986年迎来突破，他表明反向传播可以训练深层次的神经网络，意味着建立超过两三层的神经网络成为可能。但是由于计算能力有限，Hinton和他的两位多伦多学生又花了26年在2012年发论文表明，使用反向传播训练的深层神经网络在图像识别中击败了最先进的系统。 “深度学习”技术一时声名大噪。对于外界来说，AI似乎是一夜梦醒，而对于Hinton来说，这是一份迟到太久的黎明。

AI的“现实主义”

人们常用三明治来描述神经网络，一层一层叠在一起。这些神经层包含人造神经元，这是可激发兴奋的最小计算单位，兴奋激发的方式与真正的神经元相同，并可将这种兴奋传递给所连接的其他神经元。神经元的兴奋程度由数字表示，如0.13或32.39。

而另外一个关键的数字则在于两个神经元之间的连接，表示从其中一个神经元到传递了多少兴奋到另一个。这个数字是为了模拟大脑神经元之间突触的强度。当数字较大时，意味着连接更强，所以更多的兴奋流向对面的神经元。

图：Hinton、David Rumelhart和Ronald Williams关于“错误传播”的开创性图表。

深层神经网络最成功的应用之一图像识别，就像美国家庭影院一部关于硅谷剧作的难忘一幕中一样，剧中团队写出一个程序，可以判断图片中是否有热狗。这样的程序实际上真的存在，能在十年前就实现实在不可思议。运行该程序的第一步是先打开一张图片。比如说，简单起见，打开一张黑白的小图像，宽和高都为100像素，设置输入层中每个模拟神经元的兴奋度，使其与每个像素的亮度相符，将图像输入神经网络。这是“神经网络”三明治的最底层：10000个神经元（100x100），代表图像中每个像素的亮度。

然后将这一层神经元连接到上面的另一神经元层上（可能包含几千个神经元），然后再和另一神经元层相连，又是几千个神经元，依此类推。最后，在“三明治”的最上层也就是输出层，只有两个神经元——一个代表“热狗”，另一个代表“不是热狗”。重点在于训练神经网络，在图片中有热狗时激发属于“热狗”的神经元，没有时激发“不是热狗”神经元。 Hinton倾尽半生致力研究的反向传播就是实现这些的方法。

反向传播尽管在处理大量数据时效果最好，实际原理却非常简单。这就是为什么大数据在AI中如此重要——也就解释了为什么Facebook和Google对用户数据如饥似渴，为什么VectorAI研究所决定在加拿大四家最大的医院之间的街区设立商店，并与它们建立数据合作关系。

在这种情况下，数据以数百万张图片的形式输入，有些上面有热狗，有些则没有。诀窍在于这些有热狗的照片要进行标记。第一次创建神经网络时，神经元之间的连接可能具有随机权重——也就是随机数，比如每个连接所能传递的兴奋程度。就像模仿还没反应过来的大脑突触。反向传播的目标是改变这些权重，使神经网络起作用：将热狗的图像传递到最底层，最终让最顶层的“热狗”神经元变得兴奋起来。

神经网络可以看做是把图像、文字、录音、医学数据等转入为数学家称之为的高维向量空间，在此空间中事物之间的距离或者接近程度反映了其在实际中的一些重要特征。 Hinton认为这是大脑本质所做的工作。

他说：“如果你想了解一个人的思想，我们可以用一串词语来将其描述出来。我可以说‘约翰想，糟糕。’”但是，如果你问‘约翰的想法是什么？约翰有这个想法是什么意思？’这并不表示约翰的脑海里有个引号，引号里是‘糟糕’二字，甚至是连引号也没有，这表明他的头脑里面有大规模的神经活动。”对于数学家而言，大规模地神经活动可以在一个向量空间中捕获，每个神经元的活动对应一个数字，每个数字代表一个很大矢量的坐标。在Hinton看来，这就是思想——许多向量的交织。

未来AI的发展方向

深度学习在某种程度上模仿了人类大脑的活动，但只是以一种更为浅显的方式——这也许解释了为什么有时人工智能并不那么“智能”。事实上，反向传播模式并非通过深入探索大脑，解读思想本身而发现的，它源自于经典条件反射实验中动物通过试错法学习的模式。反向传播技术发展中的大部分关键步骤并不涉及神经科学的新见解，而是得益于数学和工程领域多年来的技术改进。我们对大脑的了解程度与其未知的广泛性并不冲突。

但是当伟大的突破一个接着一个，外界很难理解的一点是，AI的最新进展与其是科学的进步，不如说是工程科学的突破。虽然我们已经开始探索如何改善深度学习系统，但关注点很大程度上仍在于系统如何工作，以及是否可以达到人脑的强度。

值得人们思考的问题是，我们是否已经将反向传播理论利用透彻。如果是的话，这是否意味着AI已经达到了发展的平台期。

因此如果想要期待下一个突破的来临，并以此突破性理论为依托，可以制造具有更灵活智能的机器，我们应该参考一下八十年代反向传播理论刚刚出现的研究文献：聪明的人们早已将行不通的想法一一排除。

要训练一个人工智能系统认出有热狗的图片，要输入4000万张热狗的图片。人们有时会担心有一天电脑会抢走人类的工作，这有点杞人忧天，因为电脑无法代替律师的原因并不在于律师所做的工作有多么复杂，而是因为律师会与客户交谈，阅读资料。电脑代替人脑的那一天还遥遥无期。

对于Hinton而言，他相信，克服AI的局限性是建立“计算机科学与生物学之间的桥梁”。这种观点认为反向传播是一种生物启发式计算的胜利，这个想法最初是来源于心理学而非工程学，所以现在，Hinton正努力将此为他所用。

现在的神经网络是由大规模神经元平面层组成的，但是在人类新皮层中，真正的神经元不仅仅水平分布为层，还有垂直排列。 Hinton表示他知道这些垂直排列的意义，例如，在视觉识别过程中，即使我们的视点位置改变，也能保证我们识别对象的能力。所以他正试图建立一种“胶囊”模型来测试这个理论。到目前为止还没什么大的进展。神经网络的表现并没有因“胶囊”模型得到显著提高。但是，他在研究“反向传播”的近30年来也是这样过来的。

他说：“这件事肯定是正确的，”他谈到胶囊理论，自嘲着自己莽撞的勇气。 “现在行不通只是暂时的。”