本文转载自:甲子光年,作者:苏霍伊,编辑:王博。猎云网已获授权。
凌晨,杰弗里·辛顿在美国加州的一家廉价旅馆房间里接到了一个电话,对方自称来自诺贝尔奖网站。
“太意外了!我甚至一度怀疑是诈骗电话。”辛顿直呼,但对方的瑞典口音让他确信自己是真的获得了诺贝尔奖,“我目前在加州一家廉价旅馆里,这里没有网络连接,电话信号也不太好。我原本计划今天去做核磁共振扫描,但可能需要取消了。”
而约翰·霍普菲尔德早上刚和妻子出门接种了流感疫苗,回家后他发现自己的电子邮箱挤满了祝贺的信件。“直到我看到第四封电子邮件,我才反应过来!”霍普菲尔德说。
“我甚至不知道自己被提名诺贝尔物理学奖。”辛顿笑称。北京时间10月8日下午,瑞典皇家科学院宣布,2024年诺贝尔物理学奖授予美国科学家约翰·霍普菲尔德(John J. Hopfield)和英裔加拿大科学家杰弗里·辛顿(Geoffrey E. Hinton)。评委会表彰他们“利用物理学工具,开发出了当今强大机器学习技术的基础方法”。
霍普菲尔德现年91岁,是美国普林斯顿大学(Princeton University)霍华德-普莱尔分子生物学名誉教授。他在1954年从斯沃斯莫尔学院获得学士学位,1958年在康奈尔大学获得物理学博士学位。之后,他在贝尔实验室的理论组工作了两年。他的教学生涯涉足加利福尼亚大学伯克利分校、普林斯顿大学的物理学系,以及加州理工学院的化学和生物学系。在过去的35年中,他一直与贝尔实验室保持密切的合作关系。
霍普菲尔德在1982年创造出联想神经网络,现在通称为霍普菲尔德网络(Hopfield network),可以存储并重现图像和其他数据模式的关联记忆技术。
辛顿现年76岁,现为加拿大多伦多大学(University of Toronto)教授,是知名的计算机学家和认知心理学家。
辛顿是反向传播算法和对比散度算法的共同发明者,和深度学习的积极倡导者,被誉为“深度学习教父”或“AI教父”。他因在深度学习方面的成就与约书亚·本希奥(Yoshua Bengio)和杨立昆(Yann André Le Cun)一起荣获了2018年的图灵奖。辛顿发明了一种能自动识别数据中特征的方法,比如在图片中识别特定元素。
诺贝尔奖公布现场,来源:法新社
有着“AI教母”之称的李飞飞第一时间送上了祝福,并表示:“AI的影响力实在太大了。”
辛顿的得意门生之一、OpenAI前首席科学家伊利亚·苏茨克维(Ilya Sutskever)也在第一时间对恩师表达了祝贺。
诺贝尔物理学奖为何会颁给机器学习先驱?
1.人工智能与物理学密切相关
人工智能,其实是指使用人工神经网络的机器学习。
人工神经网络最初受到大脑结构的启发。在人工神经网络中,大脑中的神经元被模拟成不同数值的节点。这些节点通过类似神经突触的连接相互作用,连接可以被加强或削弱。训练网络的方法就是增强那些数值高的节点之间的连接。从20世纪80年代开始,霍普菲尔德和辛顿就对人工神经网络的研究进行了深入。
这次诺贝尔物理奖之所以会办发给霍普菲尔德和辛顿,是因为霍普菲尔德发明的网络使用一种独特方法来存储和恢复图案。在神经网络中,每个节点可以被想象成像素点似的基本单元。
这种联想记忆(associative memory)来自一种物理学原理来描述材料,即原子自旋特性。
原子自旋是原子表现出的微小磁性,每个原子都可以被视为一个小小的磁铁。网络的整体操作类似于物理中的自旋系统,它通过优化节点间的连接值进行训练确保存储的图像具有较低的能量。当网络接收到一个扭曲或不完整的图像时,它会系统地调整节点的值以降低能量,逐步找到并恢复一个与输入的不完美图像最匹配的存储图像。
而辛顿在霍普菲尔德网络的基础上发展出了新的网络技术——玻尔兹曼机(Boltzmann Machine)。
辛顿使用了统计物理学的工具,让其能够学习并识别数据中的特征元素。它一种随机性神经网络,其基本思想源自统计物理中的波尔兹曼分布。玻尔兹曼机通过训练实际运行中可能出现的示例来学习,可以用于对图像进行分类或生成基于所训练模式类型的新示例,即生成模型的早期例子。
波尔兹曼机由两部分组成:可见单元和隐藏单元,它们通过权重连接。这种网络能够通过模拟退火的过程来学习和推理,让系统逐渐找到能量最低的状态,从而解决优化问题或特征识别任务。
辛顿的这些研究工作推动了机器学习的快速发展。在实际应用中,特别是在深度学习发展早期,波尔兹曼机被用来预训练深层神经网络,帮助网络在进行更复杂学习任务之前,找到合适的权重初始状态。
可以说,现在波澜壮阔的人工智能浪潮,来自统计物理引发的机器学习革命。
“人工智能初看似乎与诺贝尔物理学奖的传统主题不太相符,但具有学习能力的神经网络及其在物理学领域的应用却密切相关。”诺贝尔物理学奖委员会主席艾伦·穆恩斯(Ellen Moons)表示,“获奖者的工作已经带来巨大效益,在物理学领域,我们利用人工神经网络在很多方面都取得了进展,比如开发具有特定属性的新材料。
同时他也补充道:“人类有责任以安全和合乎道德的方式使用这项新技术,为人类带来最大利益。”
“我们从未真正感受过,比人类更智能的存在会为我们带来怎样的影响。”辛顿谈到,尽管他是ChatGPT等AI工具的积极使用者,但他对自己推动这项技术的潜在后果感到担忧。
他还说:“如果能回到过去,我还是会做出相同的决定,但我仍然担心可能出现的负面后果,例如那些比我们更聪明的系统最终掌握主导权。”
霍普菲尔德同样对AI充满担忧。他对人工智能的未知潜力和局限性“感到不安”。他说:“人们已经习惯了拥有不仅有优点或缺点的技术,而是具有双向能力的技术。”
2.机器学习所有的路径、引擎和核心都源于物理学
“人工智能是从物理学发展而来的。”瑞典乌普萨拉大学教授、诺贝尔物理学奖委员会委员奥尔·埃里克森(Olle Eriksson)解释道。
“任何机器学习协议、引擎和核心都是基于方程式和概念,这些都纯粹是物理学的范畴。”他表示,用其他方式来描述它是不恰当的,它既不属于化学,也不属于计算机科学——所有的路径、引擎和核心都源于物理学。
现在,人工智能已经可以翻译语言、解析图像,甚至进行有意义的对话。
但它在数据分类、分析科研中的重要性,似乎还不为大众所熟知。过去15到20年,背靠人工神经网络,机器学习技术经历了爆炸性的增长。
诚然,计算机还不能自主思考,但现代机器已能模仿人类的记忆和学习过程。今年的物理学奖得主正是利用物理学原理,开发了基于网络的信息处理技术。
机器学习与传统软件有所不同,传统软件的工作原理可以比作食谱:软件接收数据,按照明确的指令处理数据并输出结果,就像按食谱步骤做蛋糕一样。不同于传统软件按固定程序处理数据,机器学习让计算机通过实例学习解决模糊或复杂的问题,一个很著名的例子就是图像识别。
人工神经网络借鉴了大脑的工作方式来处理信息。
早在20世纪40年代,研究人员就开始探究大脑神经元和突触网络的数学原理。心理学的进展也起到了作用,特别是神经科学家唐纳德·赫布的学习理论,即神经元间的连接在共同活动时会变得更加强大。
人工神经网络的设计灵感来源于人脑,早自20世纪40年代,科学家便开始研究大脑神经元和突触的数学模型。其中,心理学家唐纳德·赫布(Donald Olding Hebb)的理论指出,神经元间的连接在合作时会加强,这一原理至今仍是训练网络的基石。
在基于大脑的数学和神经学研究之上,科学家们开始尝试在硅基芯片上通过计算机模拟的方式构建人工神经网络,以实现类似大脑的功能。在这些网络中,节点被赋予不同的初始值来模拟大脑中的神经元,节点之间的连接模拟突触,这些连接的强度会随着程序的执行变化。直到今天,赫布的理论仍是训练神经网络的基本规则之一。
20世纪60年代,尽管神经网络的理论研究未能达到预期效果,导致一些研究人员开始怀疑其实用性,但到了80年代,随着新理论的提出和关注,包括诺贝尔物理学奖得主霍普菲尔德提出的新观点,神经网络的研究再次兴起。
当我们尝试回忆一个很少使用的生僻单词,大脑会在记忆中搜索,这个过程类似于霍普菲尔德在1982年发现的联想记忆。霍普菲尔德网络能够存储并重新找到模式。当输入一个不完整或略有失真的模式时,网络能在已存储的模式中找到最相似的一个。
霍普菲尔德曾利用他的物理学背景研究分子生物学中的理论问题,在一次会议中接触到大脑结构的研究后,他对简单神经网络的动力学产生了兴趣。神经元的共同作用产生了单个神经网络所不具备的新特性。
1980年,霍普菲尔德离开普林斯顿大学,横跨整个大陆,前往加州理工学院担任化学与生物学教授,那里的充足计算资源让他自由地发展自己的神经网络理论。
物理学基础启发了他,尤其是他对磁性材料的理解。这种材料的特性来源于其原子的自旋——每个原子都像一个微小的磁体,他运用这一物理学知识构建了含有节点和连接的模型网络。
霍普菲尔德的网络设计使得每个节点能存储一个值,最初这些值为0或1,类似黑白照片中的像素。他用一个与物理学中自旋系统能量等价的概念来描述网络的总体状态,并通过一个公式来计算这个能量,这个公式涉及所有节点的值及其连接的强度。通过输入图像初始化节点,然后调整网络的连接强度,以达到能量最低的状态。当输入另一个模式时,网络逐个检查节点,看改变节点的值是否能降低网络的能量。这个过程持续进行,直到再也无法改进为止,通常网络能够重现其训练过的原始图像。
这种方法特别之处在于它能同时存储多个图像,并在这些图像非常相似时区分它们。霍普菲尔德将这一寻找最佳状态的过程比作在有摩擦力的起伏地面上滚动一个球,直到球滚入最近的低谷并停下。如果网络被赋予一个接近最优状态的模式,它也会向前“滚动”,直至达到能量最低的“低谷”,找到与之最接近的存储模式。
霍普菲尔德和其他研究者继续改进了这些网络的细节,比如让节点存储任何值,而不仅限于0或1,使网络能存储更多图像,并在它们非常相似时也能加以区分。只要信息是由许多数据点构成的,这种网络就能识别或重建它们。
记忆一幅图像是一回事,但要解释图像所展示的内容则需要更多技巧。
就像小孩子能够识别不同的动物,并自信地说这是狗、猫或松鼠一样。他们有时可能会犯错,但很快就能准确无误地进行识别。无需通过图解或概念解释,孩子也能理解“物种”或“哺乳动物”等概念。通过几个例子的学习,每种动物的不同分类在孩子的脑海中逐渐形成了清晰的图像。人们通过体验周围环境,学会了如何识别猫,理解一个词,或者感知房间中的变化。
霍普菲尔德网络是一种联想记忆模型,其设计灵感来源于大脑从部分或含噪声的输入中重构完整模式的能力。这个网络通过为每种可能的状态分配一个特定的能量值,并通过逐步降低能量表面来最小化能量,以此回忆出与输入最匹配的存储记忆。网络的权重决定了能量景观的形状,并通过学习我们想要记忆的模式及其相关数据点来调整,进而降低这些模式的能量值。
拥有足够多神经元的霍普菲尔德网络几乎能够实现完美记忆,并在任务如模式补全中表现出色。你可以把它想象成一位记忆力极强的古典音乐家,能从几个音符中识别并完美复现一部经典作品。虽然其记忆和补全能力令人印象深刻,霍普菲尔德网络的局限性在于它只能复现已经学习过的内容,无法创造新的模式或理解数据的深层结构。
当霍普菲尔德发表他的关于联想记忆的文章时,辛顿正在美国宾夕法尼亚州匹兹堡的卡内基梅隆大学工作。他此前在英国研究实验心理学和人工智能,并思考机器是否能以类似于人类的方式学习处理和分类信息,以及如何解释信息类别。
他与同事特伦斯·谢诺夫斯基(Terrence Sejnowski)一起,从霍普菲尔德网络的基础出发,采用了统计物理学的观点开发了一种新方法。
统计物理学涉及的是由许多相似组分组成的系统,比如气体中的分子。追踪单个气体分子是困难甚至不可能的,但可以综合考虑这些分子以确定气体的整体性质,如压力或温度。在这些系统中,每个分子以不同的速度移动,运动方式多样,但最终形成相同的集体属性。
这些系统中组分的共存状态可以通过统计物理学来分析,其发生概率也可以被计算出来。某些状态比其他状态更可能发生决于系统的能量,可以通过十九世纪物理学家路德维希·玻尔兹曼(Ludwig Boltzmann)的方程来描述。
辛顿的网络算法就是利用这些方程,他的方法最终以“玻尔兹曼机”(Boltzmann machine)的名字在1985年发表。
作为波尔兹曼机发明者之一的特伦斯曾告诉「甲子光年」:“玻尔兹曼机模型就是我的物理学科背景和杰夫里的计算机思想的结晶之作,涉及我们从心理学、计算物理学和生物学这些不同领域共同汲取的营养。”
3.神奇的“玻尔兹曼机”
在很长一段时间里,计算机被视为一种纯粹的逻辑机器,他们机械地处理数字,得出精准且毫无歧义的结果,没有任何创意或模糊的空间。
就像计算火箭发射轨迹时,实验人员绝不希望计算机突发奇想,提出一个奇异的公式或尝试新方法。
20世纪80年代,波尔兹曼机提供了一种更灵活、更具创造力的信息处理方法,引入了一种前卫的思想。
玻尔兹曼机使用两种不同类型的节点:一组“可见节点”用于输入信息,另一组构成隐藏层。隐藏节点及其连接对整个网络的能量有显著影响。
这种机器通过一套特定规则运行,每次更新一个节点的值。最终机器会达到一种状态,在这种状态下,节点的模式可以变化,但网络的整体属性保持不变。每种可能的模式都对应一个特定的概率,这个概率是根据玻尔兹曼方程计算出的网络能量来确定的。当机器运行完成时,它能创造出一个全新的模式,使得玻尔兹曼机成为生成模型的一个早期例子。
约翰·霍普菲尔德和杰弗里·辛顿从20世纪80年代开始在这一领域进行深入研究,为2010年左右机器学习的革命奠定了基础。现代计算机神经网络的规模,得益于获取大量数据和计算能力的显著提升,通常由多个层组成,这些被称为深度神经网络,其训练过程称为深度学习。
霍普菲尔德在1982年发表的关于联想记忆的文章为该领域的发展提供了视角。他在实验中使用了一个包含30个节点的网络,如果所有节点相互连接,则连接数为435。每个节点上有一个值,加上连接有不同的强度,总共有不到500个参数需要跟踪。他还尝试了一个有100个节点的网络,但这对于当时的计算机来说过于复杂。
许多研究人员正在探索机器学习的应用领域,哪种技术最可行还有待观察,同时围绕这项技术的开发和使用的伦理问题也引起了广泛讨论。玻尔兹曼机通过提供的训练样本进行学习,不是通过指令。它通过更新网络连接中的值来训练,以使输入到可见节点的示例模式在机器运行时具有尽可能高的出现概率。如果在训练过程中重复同一模式多次,该模式的概率会进一步提高。训练还影响新模式的输出概率,这些新模式与机器训练时的示例相似。
训练好的玻尔兹曼机能够在先前未见过的信息中识别出熟悉的特征。比如遇到朋友的兄弟姐妹时,可以立即看出他们有亲属关系。同样,玻尔兹曼机能识别一个全新的样本,只要它属于训练材料中已存在的类别,并能将其与不相似的材料区分开来。
玻尔兹曼机的原始形式效率较低,需要较长时间才能找到解决方案。随后进行的各种改进使得这些机器更加有趣和高效,辛顿对此继续进行了研究。后来的版本进行了“瘦身”,即去除了一些单元之间的连接,这一改变证明可以提高机器的效率。
在20世纪90年代,虽然许多研究人员对人工神经网络失去了兴趣,但辛顿是少数几位仍然坚持在该领域工作的研究者之一。
他还推动了一轮新的、激动人心的研究成果;2006年,他与同事西蒙·奥辛德罗(Simon Osindero)、谢意威(Yee Whye Teh)和鲁斯兰·萨拉霍丁诺夫(Ruslan Salakhutdinov)开发了一种通过一系列层叠的玻尔兹曼机对网络进行预训练的方法。这种预训练为网络中的连接提供了一个更好的起点,优化了识别图片元素的训练过程。
玻尔兹曼机通常作为更大网络的一部分使用,例如在根据观众偏好推荐电影或电视剧。
现在如此规模的计算机神经网络,都是通过获取可用于训练网络的大量数据以及计算能力的巨大提升发展而来的。现今的人工神经网络通常是巨大的,由许多层组成。这些被称为深度神经网络,它们的训练方式被称为深度学习。
4.情理之中的诺奖
2012年12月,辛顿从多伦多市踏上了一辆前往太浩湖的巴士,可他并没有找个座坐下来,他已经七年没有坐下了。“我最后一次坐下是在2005年。”他说,“那是一个错误。”
十几岁那年,辛顿帮母亲搬一个取暖器时受了背伤,从此落下病根。等到临近五十岁,他再也不敢坐下,因为腰椎间盘有滑脱的风险,一旦滑脱能疼到好几周无法下床。他在多伦多大学办公室工作时用的是站立式办公桌。而在吃饭时,他会在地上铺一块小泡沫垫,跪坐在桌边,像和尚在祭坛前祈祷。
在功成名就前,“不敢坐下”的辛顿却生生坐了30年“冷板凳”。
杰弗里·辛顿出生于1947年,他的曾祖父是计算机科学的先驱、著名逻辑学家乔治·布尔(George Boole)。布尔的夫人玛丽也是一位女权主义哲学家和数学爱好者,她的姓氏“Everest”与珠穆朗玛峰的英文名相同,这一名称来源于她的叔叔乔治·埃佛勒斯,他是珠穆朗玛峰的命名者。
辛顿在学术生涯初期专注于哲学和心理学,后转向人工智能,成为深度学习和神经网络的先行者。
辛顿似乎一直不太走运,正当他开始追求神经网络研究目标时,他的导师希金斯(Christopher Longuet-Higgins)教授却在明斯基(Marvin Lee Minsky)的影响下改变了方向,转而支持AI的符号主义,并声称联结主义的神经网络是没有前途的。
杰弗里·辛顿
这本书几乎摧毁了神经网络领域的前景,宣称神经网络(尤其是单层感知器)是无稽之谈。它对神经网络领域造成了巨大打击,使得1972年成为神经网络研究的历史低点。
面对逆流,希金斯试图说服辛顿放弃神经网络,转向符号主义人工智能。但辛顿坚持自己的研究,向希金斯保证:“再给我六个月时间,我会证明这是行得通的。”
如此这般,每隔六个月辛顿都会重复这句话,两人争论了五年,辛顿终于坚持研究备受冷落的神经网络并熬到了博士毕业。
辛顿的观点总是独树一帜。他认为,明斯基对感知机的批评实际上揭示了神经网络需要解决的问题,“这是前进的一部分,而非放弃的理由”。他坚信大脑的工作方式不是简单地执行人类编写的“智能程序”。比如编写程序教孩子学习语言,实际上孩子们是通过经验学习,而不是靠死记硬背程序中的步骤。
在完成博士学位几年后,辛顿去了美国进行博士后研究。在加利福尼亚,他找到了一群支持神经网络的同行,包括David Rumelhart等人,他们在圣地亚哥形成了一个认为神经网络非常有前景的研究小组。这些同行支撑了他能在20世纪70年代的AI寒冬中继续他的神经网络研究。
1986年,辛顿与大卫·鲁梅尔哈特(David Rumelhart)和罗纳德·威廉姆斯(Ronald Williams)共同发表了一篇关于通过反向传播误差来学习的论文,这篇论文为神经网络中的多层结构提供了计算机学习的新方法,并推翻了之前关于感知机的限制性看法。他在人工智能领域的贡献特别是在生成式AI技术上最为显著,包括对OpenAI旗下的ChatGPT的早期发展。
尽管取得了巨大的科学成功和认可,辛顿对于他所推动的技术的潜在风险和道德后果越来越感到担忧。2023年,他选择离开谷歌,并公开表达了对AI潜在威胁的担忧。
他曾在X(原推特)上发文,解释离职是为了能自由讨论AI的风险。辛顿对自己教导机器学习的成果感到怀疑甚至愤怒,担心其一生的工作可能最终导致人类的灭亡,现在他认为自己的最终使命是向世界发出警告。今年3月,他在一次采访中提到曾与谷歌首席科学家杰夫·迪恩(Jeff Dean)讨论过AI可能带来的人类生存危机。
并警告说,智能超越人类的AI可能通过语言操纵人类,阻止人类关闭它们。
而约翰·霍普菲尔德最初是一位固态物理学家,他的职业生涯跨越了多个科学领域。
约翰·霍普菲尔德
在超过六十年时间里,他利用丰富的知识和经验探索生物与生化领域中隐藏的物理原理。
生长在一个物理学家家庭的霍普菲尔德,从小就沉迷于动手制作模型飞机和矿石收音机(Crystal Radio)。他的父母制定了一个独特的规则:只要他能够把物品重新组装好,就可以尽情拆解家中的任何设备。他可以随意拆解家中的任何物品。这一切共同塑造了霍普菲尔德,使他成为未来领域跨界研究的先驱。
无论是宇宙学、生物学、半导体,还是人脑的研究,物理学一直是他灵感的源泉。
美国富兰克林研究所(The Franklin Institute)评价他是一位真正的“科学冒险家”,不受学科界限的约束,总是致力于提出问题、探索解决方案,并在问题解决后迅速转向新的挑战。无论是宇宙学、生物学、半导体,还是人脑的研究,物理学一直是他灵感的源泉。
霍普菲尔德的学术生涯始于斯沃斯莫尔学院(Swarthmore College),他在那里获得了物理学学士学位,后在1958年于康奈尔大学(Cornell University)获得物理学博士学位。随后他加入了贝尔实验室,开始了他的固态物理学家生涯。
1974年,霍普菲尔德对遗传学做出了重大贡献,他提出了“动态校正”(Kinetic proofreading)机制,该机制解释了基因表达过程中的高准确性,对蛋白质合成和免疫系统的外来物质识别至关重要,对RNA转录的准确性研究产生了深远影响。
1982年,霍普菲尔德开发了神经网络模型,解释了大脑如何存储和回忆记忆。他的模型揭示了神经元系统如何通过相互作用产生稳定的记忆,并能根据部分信息重构整体记忆。不仅为复杂系统的研究提供了新的视角,还激发了新一代物理学家将研究扩展到其他科学领域。
两位学者的研究之路不尽相同,但他们的经历诠释了瑞典乌普萨拉大学教授、诺贝尔物理学奖委员会委员奥尔·埃里克森(Olle Eriksson)的那句话:“人工智能是从物理学发展而来的。”
他们的成就无需诺贝尔奖证明,但他们的经历都足以证明他们配得上诺贝尔奖。