【猎云网(微信号:ilieyun)】7月23日报道(编译:油人)
能够可靠地引导无人驾驶汽车的AI模型通常需要无限的测试和微调,更不用说计算能力了。据悉,为了加强AI算法训练的有效性和效率,谷歌母公司Alphabet旗下的Waymo正在与DeepMind合作开发受进化生物学启发的技术。
正如Waymo解释的那样,AI算法通过反复试验自我提升。通过不断尝试并基于其接收的反馈进行调整,向模型呈现其学习执行的任务。表现在很大程度上取决于训练方案——被称为超级计量表——而找到最佳方案通常需要经验丰富的研究人员和工程师。他们精心挑选正在接受训练的AI模型,剔除表现最差的并释放资源,从头开始训练新算法。
DeepMind在PBT(基于人群的训练)中设计了一种劳动密集度较低的方法,该方法从随机变量(超参数)启动的多个机器学习模型开始。模型被定期评估并以进化的方式相互竞争,使得表现不佳的人群被“后代”(具有略微变异变量、表现更好的成员副本)取代。PBT不需要从头开始重新训练,因为每个后代都会继承其父网络的状态,并且在整个训练过程中会积极更新超参数。最终结果是,PBT将其大部分资源训练用于“良好”的超参数值。
PBT并不完美,它倾向于优化目前并且不考虑长期结果,不利于晚期开花的AI模型。为了缓解这种情况,DeepMind的研究人员训练了更多的人群并创建了称为利基的子群体,其中算法只允许在他们自己的子群体中竞争。最后,该团队通过提供更多独特模型在竞争中获得优势,直接奖励了多样性。
在最近的几项研究中,DeepMind和Waymo将PBT应用于行人、自行车手和摩托车驾驶员的识别任务,目的是调查是否可以提高调用率(确定的障碍物在场景障碍物总数上的比例)和精度。最终,两家公司试图培养单一的AI模型,以保持超过99%的调用率,同时减少误报。
Waymo报告说,这些实验为评估真实世界模型的稳健性提供了一个“现实的”框架,这反过来又为PBT的算法选择竞争提供了依据。他们还说,实验表明需要快速评估以支持进化竞争;PBT模型每15分钟评估一次。(DeepMind表示,它采用了谷歌数据中心内“数百个”分布式机器的并行化来实现这一目标。)
结果令人印象深刻。Waymo声称,PBT算法能够实现更高的精度,与手工调整的等效物相比,可以将误报减少24%,同时保持较高的召回率。此外,它们节省了时间和资源,使用PBT训练的算法发现的超参数调度占用了一半的训练时间和资源,并占用了一半的计算资源。
Waymo表示,它已将PBT直接纳入Waymo的技术基础架构,使整个公司的研究人员能够通过点击按钮来应用它。“自从完成这些实验以来,PBT已应用于许多不同的Waymo模型,并为帮助创造更有能力的车辆提供了很多承诺,”该公司写道。“传统上,AI只能使用简单而流畅的损失函数进行训练,这些函数可以作为我们真正关心事物的代理。PBT使我们能够超越用于训练神经网络的更新规则,以及针对我们关心功能优化的更复杂指标。”