计算机也能像人类一样使用App！OpenAI重磅推出人工智能训练平台Universe

2016-12-06

这是马斯克旗下人工智能创企OpenAI的新脑洞。

【猎云网（微信号：ilieyun）】12月6日报道 （编译：peko）

由特斯拉首席执行官Elon Musk创办的人工智能企业OpenAI刚刚对外推出了一款名为“Universe”的软件。这款软件是一个虚拟训练平台，但使用它的不是人类而是人工智能。换句话说，这是一个人工智能训练场。

其他实验室已经构建了类似可供人工智能自学的虚拟世界。阿尔伯塔大学的研究人员提供了Atari学习环境，让人工智能系统可以玩Breakout和Space Invaders之类的经典Atari游戏。微软提供了基于Minecraft的虚拟世界Malmo。还有今天，谷歌发布了DeepMind实验室。但这些的都比不上Universe。它是一个非常庞大的人工智能训练场，在这里，人工智能系统能够玩游戏、浏览网页。

OpenAI首席技术官Greg Brockman表示：“在这个领域，人类可以利用计算机完成任何事。”

Universe是一个开放的软件平台，任何人都可以使用甚至修改它。理论上，人工智能研究人员可以将任何应用程序和Universe相连，然后让人工智能使用这些软件。这意味着研究人员可以通过这个平台让机器人自己进行学习。

OpenAI希望Universe能够推动机器“平均智力”的发展，可以和人一样具有灵活的头脑。OpenAI研究员兼前谷歌员工Ilya Sutskever表示：“一个 AI 系统应该能够解决你抛给它的任何问题。”这听起来非常大胆。但Sutskever认为这是可行的。几年前人们还觉得使用AI办事是不可能的，但如今它还不是实现了。

他将Universe和ImageNet项目相比。ImageNet的目标是帮助计算机能够像人一样“看见”。在当时，这似乎是不可能的。但如今，谷歌和Facebook的照片App已经可以识别数字图像里的人脸、位置以及物体。现在，OpenAI希望将人工智能朝每一个数字领域进行扩展。

强化学习

在Universe中，人工智能系统可以通过VNC（虚拟网络计算机）与虚拟世界互动。在经历一系列错误并改正后，人工智能将知道什么有用、什么没用，如何获得高分、赢得游戏或取得其他奖励。这就是强化学习。谷歌DeepMind实验室就是利用这项技术创造了AlphaGo。这个人工智能甚至在最近击败了一位世界顶级棋手。

但要注意的是，强化学习会发生在任何软件身上，因为人工智能系统可以在不同应用程序间转移。Sutskever表示，从长期看，这个平台甚至可以用于练习“迁移学习”，即把在某个应用中学到的东西运用到其他应用中。他还表示，OpenAI目前已经开始着手建立一些智能系统，将一个赛车游戏里学到的东西，应用在新的游戏里。

帮助创建Atari学习环境的阿尔伯塔大学教授Michael Bowling对Universe如何运作提出过疑问。但他非常赞同这个理念——人工智能训练场训练的不仅仅是游戏而是一切。“游戏是一个衡量标准，但目标是帮助人工智能。”

你好！侠盗猎车手

虽说如此，游戏还是很好的出发点。目前，OpenAI已经在Universe上添加了1000多款游戏，也获得了Valve和微软等游戏巨头的授权。同时，它还与微软合作，想把Malmo连接到Universe中。此外，它还有意和DeepMind合作。

游戏一直作为人工智能的训练工具。因为游戏的内容是可控的，有明确的奖励制度，所以人工智能可以在其中稳定地学习什么可以做，什么不可以做。游戏本身不是目的，但它们能够帮助人工智能，给现实世界带来积极影响。在人工智能能够比任何人类都玩得好Atari游戏之后，DeepMind使用同样的技术，对谷歌全球数据中心网络进行了完善，以此来节省每年数百万美金的成本支出。

Craig Quiter目前是Otto公司的工程师，这家自动驾驶卡车公司在今年夏天被Uber以6.8亿美元的价格收购。在跳槽到Otto之前，Quiter曾参与过Universe的开发工作。在Universe的帮助下，他正在打造一个可以玩“侠盗猎车手5”的人工智能。

如今Otto的卡车可以在相对平稳的州际公路上导航。但在未来几年，该公司希望构建一款自动驾驶车辆，可以对路上遭遇的任何状况做出反应。因此，“侠盗猎车手”这款游戏对Otto的自动驾驶系统而言是很好的培训素材。

游戏之外

与此同时，OpenAI的研究人员还让人工智能可以在Universe中浏览网页。该项目的资深研究员Andrej Karpathy提出了一个疑问，在游戏中构建人工智能对现实世界会有何种影响。在某种意义上，要人工智能去学习如何使用一个网络浏览器已经可以称得上是让他们去学习如何参与现实世界了。

现在面临的难题是很难通过浏览器去强化学习。就像神经网络可以识别照片中的物体或人脸一样，Universe的神经网络也可以自动读取游戏屏幕里的成绩。但是网络服务本身是没有分数的。研究人员必须自己去设置奖励机制。Universe允许这样做，但目前还不清楚什么奖励可以帮助人工智能。

Sutskever相信我们可以教人工智能做任何事。除非人工智能能够理解人类说话的方式，否则他们将无法浏览互联网。如果人工智能没有人类的运动技能，他们也无法玩《侠盗猎车手》。因为这些因素，Quiter认为在虚拟世界里导航和在现实世界里没什么不同。如果Universe达到了这个目标，那么人工智能就拥有了和人类一样的“普通智力”。这个目标听起来就像天方夜谭，但我相信在不久之后就能实现。