【猎云网(微信号:ilieyun)】6月18日报道(编译:柠萌)
如果有足够的训练数据,街道导航人工智能是否能够了解之前没看过的街区?这就是谷歌母公司Alphabet旗下DeepMind的科学家们在预印本服务器Arxiv.org上发表的一篇新论文《街道导航的跨视图策略学习》中所做的研究。在论文中,他们描述了一个过程:借助自上向下的视觉信息,将一个经过地面视图语料库训练的人工智能策略转移到城市的目标区域。他们表示,这种方法可以产生更好的泛化效果。
该论文的合著者说,这项研究的灵感来自于他们的观察结果,那就是人类可以通过阅读地图快速适应一个新城市。
“对一个陌生环境进行视觉观察,并从中获得导航的能力是智能代理的核心组件,也是一个持续的挑战。到目前为止,如果街道导航代理没有经过广泛的再训练,就无法转移到没看过的区域,而且依赖于模拟并不是一个可扩展的解决方案,”他们写道。“我们的核心理念是将地面视角与空中视角结合起来,学习一种可以在不同视角之间转换的联合策略。”
研究人员首先收集了区域航拍地图,并根据相应的地理坐标与街道水平的视图进行配对。接下来,他们开始了一项由三部分组成的迁移学习任务,第一步是对源区域数据进行训练,第二步使用空中视图目标区域观测进行适应,最后一步是使用地面视图观测向目标区域进行迁移。
该团队的机器学习系统由三个模块组成,包括负责视觉感知的卷积模块、捕捉特定位置特征的长短时记忆(LSTM)模块和生成动作分布的策略递归神经模块。该系统部署在StreetAir上,这是一个建立在StreetLearn之上的多视角户外街道环境。StreetLearn是一个互动的第一人称集合,收集了来自谷歌街景和谷歌地图的全景街景照片。在StreetAir和StreetLearn中,航拍图片覆盖纽约(纽约市中心和纽约中城)和匹兹堡(阿勒格尼和卡内基梅隆大学的校园)。航拍图像的排列方式是这样的:在每个经纬度坐标上,返回一个84x84的航拍图像,其大小与以该位置为中心的地面视图图像相同。
人工智能系统一旦接受训练,就会学习如何定位自己,以及如何在给定目标目的地经纬度坐标的全景图中导航。每边2-5公里范围内的全景图间隔约10米,AI导航代理每转一圈可以有五种动作:向前移动,向左或向右转22.5度,向左或向右转67.5度。当到达距离目标100至200米的地方时,这些代理会得到奖励,以加强那些能够快速准确穿越目标的行为。
在实验中,利用航拍图像来适应新环境的代理在达到1亿步时获得了190个奖励指标,在2亿步时获得了280个奖励指标,这两种都明显高于只使用地面视图数据的代理(在1亿步时奖励50个指标,在2亿步时奖励200个)。研究人员表示,这表明他们的方法显著提高了代理获取目标城市区域信息的能力。
研究小组写道:“我们的研究结果表明,与单视图(地面视图)代理相比,我们提出的方法将代理转移到了未见过的区域,这些区域具有更高的零达标奖励(在空载的地面视图环境中不进行训练的转移)和更好的整体性能(在转移过程中不断训练)。”