【AI星球(微信ID:ai_xingqiu) 北京】8月11日报道 (编译:小白)
通过潜在的未来时间进行推理是人类擅长的事情,但是在训练AI时,这种能力就成了巨大的挑战。采用这些推理技巧并利用这些技巧来创建计划则更是难上加难。但这依然难不倒谷歌的DeepMind团队。在最近发布的博客文章中,研究人员描述了他们新开发的一种方法,可以向AI引入“基于想象力的规划”。
事实上,其他程序已经具备规划能力,但仅限于特定的环境,比如AlphaGo。正如研究人员在博文中写道那样,AlphaGo有着强大的规划能力,但是,他们又补充道:“AlphaGo所处的环境是‘完美’的——他们具有明确的规则,使得在任何一种情况下结果都可以被精确预测。”Facebook也开发了一款聊天机器人,可以在对话开始前预测对话内容,但是再一次地,这种预测仅限于十分有限的环境。“然而,真实世界是复杂的,没有那么多明确规定的规则,并且还时常伴随着不可预测的问题。即便是最智能的程序,在这些复杂环境下进行预测也是一个非常耗时耗成本的过程,”博客文章中写道。
DeepMind的研究人员开发了一种他们所谓的“增强想象程序”,或者也称为“12As”。该程序拥有一个神经网络,被训练来从其所处环境中提取任何或许对日后决策有用的信息。这些程序可以创造、评估和遵循计划。为了构建和评估未来计划,12As可以在决定执行哪个计划之前“想象”一系列行动和结果。他们也可以自己选择想象的方式,选项包括独立尝试不同的可能行动或串联所有行动。第三个选项可以让12As创建一个“想象树”,这个想象树可以让程序选择继续从最后一次行动创建的想象情景展开想象。并且,还可以根据之前的任一想象状态提出想象的行动,从而又创建想象树。
研究人员用解谜游戏《推箱子》和飞船导航游戏对12As进行了测试,这两个游戏都对规划和推理能力具有一定要求。在这两个测试中,12As比不具有未来推理能力的其他程序表现更优秀,能够以较少的经验进行学习,并能够应对不完美的环境。
DeepMind的AI已经学会如何导航跑酷路线,并回顾过去的知识。研究人员还用其探索AI程序之间可能的协作与冲突。但是在规划能力和未来推理方面,我们仍有很多路要走,但是上述的结果已然是迈向具有想象力之AI的重要一步。