谷歌与DeepMind：史上最强AI拉锯战

2019-03-18

Demis Hassabis造就了世界上最强大的AI，被谷歌收购后，到底将由谁做主？

【猎云网（微信号：ilieyun）】3月18日报道（编译：一晌贪欢）

2010年奇点峰会，DeepMind创始人Demis Hassabis在会上发表了关于AGI的演讲，演讲题目是：建立AGI的系统神经学方法。

AGI指通用人工智能，它是一种假设的计算机程序，可以和人类一样执行智能任务，甚至有希望超越人类。AGI将能够完成离散的任务，比如识别照片或翻译。此外，它将会加减运算、下棋、说法语，还能理解物理论文、撰写小说、设计投资策略、与陌生人谈话。它将能够监测核反应、管理电网和交通流量，它可以轻易地做任何事情。相比之下，目前最先进的AI在AGI面前看起来就简单得像个便携式计算器。

上述任务目前只能由人类完成。但是人类智力受到脑容量所限，更受人类渺小脆弱的身体限制。既然AGI在计算机上运行，它就不会受到这些机体条件限制，其智能水平只受处理器数量的影响。AGI可能会先从监测核反应开始。但很快，它在一秒内消化的物理论文数量比一个人在千年内消化的还要多，并可以据此发现新能源。人类智慧，再加上计算机的速度和可扩展性，将解决目前看来无解的问题。Hassabis预计AGI将掌握各种学科，包括癌症研究、气候变化、能源、基因组学、宏观经济、金融系统等等。

AGI将高速地处理信息且高度智能，不断自我改进的系统将急剧提升机器智能程度。但是AGI的未来难以预测，没人知道这一切是好是坏。

Hassabis解释说，到目前为止，科学家们一直从两个途径发展AGI。第一个途径是符号AI。研究人员试图描述编写一套完整的规则，使之能像人类一样思考。这种方法在上世纪八九十年代很流行，但没有达到预期的结果。Hassabis认为，人类大脑神经结构太过微妙，编程模仿是做不到的。第二个途径是以数字形式复制大脑的生物网络。这听起来似乎可行，毕竟大脑是人类智力的中心。但操作起来并不现实，因为这么做就好比绘制宇宙中每一颗恒星的地图。最根本的问题在于，这种途径是在错位研究大脑功能。打个比方，这就像试图通过打开计算机并检查晶体管的交互来理解Microsoft Excel是如何工作的。

Hassabis提出了中间立场：AGI应该从大脑处理信息的广泛方法中汲取灵感，而不是在特定情况下应用生物系统或特定规则。换句话说，它应该专注于理解大脑的软件运作，而不是大脑的硬件构成。功能性磁共振成像等新技术使人们能够在大脑活动的同时观察大脑内部，因此理解“大脑的软件运作”渐渐成为可能。最新研究表明，大脑通过在睡眠中重演经验来学习，从而得出一般原则。AI研究者应该模仿这种系统。

当年Hassabis参加奇点峰会最重要的目的是募资，DeepMind最终获得200万英镑投资，其中著名风险投资人彼得·泰尔投资了140万英镑。谷歌在2014年1月以6亿美元收购该公司时，Thiel和其他早期投资者的投资回报率高达5000%。

对许多创始人来说，这已经算是一个完美的结局。但对Hassabis来说，被谷歌收购只是他追求AGI过程的一个步骤而已。 2013年，他花费大量时间进行协议条款谈判，目的在于保持DeepMind的独立性。它可以获得被谷歌收购的好处，比如获得现金流和计算能力，但是创始人仍然保有对公司的控制权。

Hassabis认为DeepMind具备多种优势：拥有创企的动力、顶尖大学的优异人才、大公司的财力支持。可谓万事俱备，因此AGI的时代会加速到来，从而为人类造福。

天才游戏少年

Demis Hassabis 1976年出生于伦敦，他4岁开始下国际象棋，13岁时成为了世界上同年龄段中位列第二的棋手。8岁在老式电脑上自学编程。1992年提前两年完成高中课程。他在Bullfrog Productions找到一份电子游戏编程的工作，编写的虚拟游戏Theme Park大卖1500万张拷贝。

十几岁的时候，Hassabis同时参加国际象棋、拼字游戏、扑克和西洋双陆棋的比赛。1995年，在剑桥大学学习计算机科学时，又参加了学生围棋锦标赛且成绩出色。下棋激发了Hassabis对人工智能的兴趣。当他下棋时也在思考，计算机是否也可以像人类一样通过经验积累不断学习。游戏提供了脱离现实的完美学习环境。游戏世界纯粹又包容，玩游戏不会受到干扰而且可以迅速掌握。

先搞定智能，其它问题就能迎刃而解

1997年5月，IBM超级计算机Deep Blue击败了国际象棋世界冠军Garry Kasparov。这是计算机首次击败一位大师级棋手。这场比赛受到广泛关注，也引起了人们对计算机不断增长的力量和潜在威胁的担忧。当时Hassabis产生了一个想法，他要把战略游戏和AI结合起来，有一天，他会建立一个计算机程序，打败最高段位的人类围棋手。

Hassabis有条不紊地规划职业生涯。1998年，他创办了自己的游戏工作室Elixir，专注开发一款复杂的模拟政治游戏Republic: The Revolution。还在学校时，Hassabis就有这样的想法：通过超级计算机来模拟复杂的世界动态，以解决最棘手的社会问题。当时，他试着在游戏中实践自己的想法。不过现实很骨感，Elixir最终发布了精简版的游戏但是反响平平。其它游戏也没有成功。2005年4月，Hassabis关闭了Elixir。有人认为Hassabis创立Elixir只是为了获得管理经验。现在，在正式踏上AGI之路以前，他只缺少一个关键的知识领域——了解人类的大脑。

2005年，Hassabis在伦敦大学学院开始攻读神经科学博士学位。他发表的关于记忆和想象力的研究很有影响力。一篇被引用上千次的论文显示，患有健忘症的人也很难想象新的体验，这表明记忆和创造大脑图像之间存在联系。Hassabis所作的研究都是朝着AGI迈进。他大部分研究都回归一个问题：人脑是如何获得并保留概念和知识的？

2010年11月15日，Hassabis正式成立DeepMind。从那时起，公司的宗旨就一直没有变过：先搞定智能，其它问题就能迎刃而解。也就是说，把大脑如何完成任务的理解转化为计算机软件，软件可以使用相同的方法进行自我学习。

Hassabis并没有假装科学已经完全理解了人类的思想。AGI的蓝图不能简单地从数百项神经科学研究中得出。我们对大脑的功能仍然知之甚少。2018年，Hassabis自己的博士研究结果甚至受到了澳大利亚研究团队的质疑。所以DeepMind的起步工作还是很艰难。

Suleyman和Shane Legg加入了公司联合创始人的行列。公司位于伦敦，许多新员工来自欧洲，有效避开了和谷歌、Facebook等硅谷巨头争夺人才。也许DeepMind成功秘诀之一就在于留住了最优秀的员工。

公司花大力气发展的一种机器学习技术——强化学习，源于Hassabis所擅长了两个领域：游戏和神经科学。建立这样一个程序是为了收集有关其环境的信息，然后通过重复经验来从中学习，就像Hassabis所说的“睡眠期间大脑活动”一样。

在此之前，强化学习在计算机领域还是一片空白。程序显示了一个虚拟环境，除了游戏规则，它什么也不知道。程序包含至少一个称为神经网络的组件。由计算结构层组成，可筛选信息，目的是识别特定特征或策略。每一层都在不同的抽象层次上检查环境。起初，这些网络的成功率很低。当他们尝试不同的策略时，变得越来越老练，当成功时，也会得到奖励。程序不会再次范同样的错误。AI神奇的地方就在于它重复任务的速度。

DeepMind的AI项目在2016年获得重大胜利，当年，AlphaGo在首尔举行的五局三胜比赛中击败围棋世界冠军，震惊世人。2.8亿人见证了AlphaGo的胜利，有专家曾预测人机对战机器取胜还需要十年时间。次年，升级版AlphaGo击败了中国围棋冠军。

人类智慧将被人工智能超越吗？

就像1997年的Deep Blue一样，AlphaGo改变了人们对人类成就的看法。人类冠军无疑拥有地球上最聪明的头脑，可是他们已经被AI超越。近20年后，Hassabis实现了自己当年的野心，他说这场比赛让他热泪盈眶。

当年Deep Blue杀伐决断，通过快速计算赢得了胜利，但是AlphaGo的风格看起来却很有艺术气质，几乎是人类的风格。它的优雅、复杂以及卓越的计算能力，似乎表明，在治疗疾病和管理城市等领域，DeepMind将比竞争对手走得更远。

DeepMind控制权之争

Hassabis一直说，DeepMind将使世界变得更好。但AGI存在不确定性。如果它真的出现，我们不知道它是善是恶，也不知道它是否会服从于人类控制。即便它听从人类控制，那这个人类舵手又会是谁呢？

从一开始，Hassabis就试图保护DeepMind的独立性。他一直坚持让DeepMind留在伦敦。Hassabis不愿交出自己一手带大的公司。因此DeepMind制定了一项协议，阻止谷歌单方面控制该公司的知识产权。据知情人士透露，在收购前一年，双方签署了《道德与安全审查协议》。该协议将DeepMind的核心AGI技术的控制权交给了一个名为Ethics Board的委员会。Ethics Board为DeepMind提供了坚实的法律支持，以保持对其最有价值、也可能是最危险的技术的控制。小组成员的名字尚未公布，但据消息人士透露，DeepMind的三位创始人都是Ethics Board成员。

此外DeepMind在市场公关方面表现极好。AlphaGo就是典型的例子。自谷歌被收购以来，DeepMind多次创造了举世瞩目的奇迹。比如，一个软件可以在眼睛扫描中发现黄斑病变。另一个程序使用与AlphaGo类似的架构从无到有地学会了下棋，仅仅花费九个小时。2018年12月，一个名为AlphaFold的程序被证明可以从复合物列表中预测蛋白质的三维结构，其准确率高于同行竞争对手，这有助于治疗帕金森病和阿尔茨海默症等疾病。

谷歌数据中心预计包含250万台服务器，DeepMind开发了一套算法，以优化谷歌数据中心冷却方案，DeepMind深以为傲，因为谷歌因此降低了40%的能源成本。谷歌母公司Alphabet为这类服务付给DeepMind丰厚的报酬。2017年，DeepMind向Alphabet收取了5400万英镑。但与DeepMind的日常管理费用相比，这一数字显得微不足道。那一年仅在DeepMind员工身上就花了2亿英镑。总体而言，公司在2017年支出2.82亿英镑。

谷歌收购DeepMind五年后，控制权之争不可避免。考虑到Hassabis对事业的执着，他不太可能离开公司。他对金钱感兴趣只是因为钱能帮助他完成事业追求。到目前为止，谷歌对DeepMind的干预还不大。但最近发生的一件事却引发了对公司未来独立性的担忧。

2016年2月，DeepMind成立了新医疗保健部门DeepMind Health，由公司联合创始人之一的Mustafa Suleyman领导。公司希望创建Streams项目，当病人的健康状况恶化时，可以向医生发出警告。DeepMind将获得基于绩效的费用。由于这项工作需要获得有关病人的敏感信息，Suleyman建立了一个独立的审查小组（IRP）。

2018年11月8日，谷歌宣布成立自己的医疗保健部门Google Health。五天后，公司宣布将把DeepMind Health并入母公司相关部门。Suleyman曾在2016年写道：“在任何阶段，患者数据都不会与谷歌账户、产品或服务相关联。”但他的承诺似乎已经落空。不过DeepMind还是说：“在这个阶段，我们的合同都没有转到谷歌，只有得到合作伙伴的同意，才会转去谷歌。”合并激怒了DeepMind Health的员工。据消息人士说，一旦合并完成，就会有更多员工计划离职。据多名知情人士透露，有员工于2017年12月辞职，原因是担心合并后该独立审查小组更多的是为了装门面，而不会对病人隐私数据使用情况进行真正的监督。

这一事件表明，DeepMind的非核心业务容易受到谷歌的左右。DeepMind在一份声明中对此次合并给出了正面评价。但是我们不禁要问，谷歌是否会将同样的逻辑应用于DeepMind在AGI方面的工作。

强化学习

总体上来说DeepMind进步明显。它的软件可以模拟甚至超越人类学习执行任务。比如打砖块游戏。没有人类指导，DeepMind的程序不仅学会了玩这个游戏，而且还学会了如何把球打进砖块后面的空间，利用球回弹来打更多的砖块。Hassabis说，这证明了强化学习的力量和DeepMind计算程序的非凡能力。

这个游戏演示令人印象深刻，但有个问题。如果虚拟球拍移动得更高一些，程序就会失败。AI项目所掌握的技能非常有限，即使对环境的微小变化也无法做出反应，除非接受数千轮强化学习。现实世界的变化太多了。对于智能诊断来说，没有两个身体器官是完全相同的。对于智能机械，没有两个引擎可以用相同的方式调整。因此，将虚拟空间中完善的程序投放到现实世界困难重重。

另外一个问题是，虚拟环境中的成功取决于奖励机制：一个允许软件衡量其进程的信号。程序了解到物体从墙上回弹会加分。AlphaGo很多编程工作都是在构建与复杂游戏兼容的奖励函数。不幸的是，现实世界并不提供这种简单的奖励。政治因素使问题更加复杂化。要协调气候健康的奖励信号（单位体积二氧化碳粒子数）与石油公司的奖励信号（股价），牵涉到许多动机矛盾的各方。奖励信号往往非常微弱。而人脑在执行任务的过程中不会去想有没有奖励的问题。

DeepMind通过大量计算机电力找到了解决方法。公司最近专注于策略电脑游戏星际争霸II，游戏早期所做的决定对后来会产生影响，这更接近于现实世界任务所特有的那种复杂而延迟的反馈。今年1月，DeepMind软件击败了一些顶级人类玩家，给人留下了深刻印象。它的程序也已经开始学习经由人类反馈的奖励功能。不过，把人类指令置于计算循环中，比起纯粹的计算机处理，其计算规模和速度都会受到影响。

公司研究人员匿名表示，他们也对DeepMind能否通过这些方法达到AGI表示怀疑，专注于在模拟环境中实现高性能，这使得奖励信号问题很难解决。然而，这种方法又是DeepMind的核心。

Hassabis的人生一直在和游戏打交道。就像公司的软件一样，Hassabis只能从以往的经验中学习。在发明了一些有用的医疗技术，并超越了世界上最伟大的棋类游戏玩家之后，对AGI的追求最终还是可能会失败。公司取得的成绩斐然，却不是Hassabis最终想要的。他仍然可以开创AGI的时代，就在谷歌的眼皮底下，但却超出了它的控制范围。如果这样做，Hassabis将赢得最艰难的比赛。