【AI星球(微信ID:ai_xingqiu)】10月19日报道 (编译:叶展盛)
今日,谷歌旗下专注于人工智能研究的部门DeepMind公布了新版的AlphaGo,这款程序的围棋学习完全是靠自己完成的。
这个系统的名字叫AlphaGo Zero,它学习的材料就是自己和自己下围棋的结果,并采用了一种名为增强学习的机器学习技术。Zero的训练是持续不断的,它会在自己和自己下围棋的过程中学习高级的概念,并挑选出有利的落子位置和顺序。
在三天的学习后,这个系统已经能打败AlphaGo Lee,也就是之前DeepMind打败韩国围棋高手李世石的系统,比赛结果为100:0。在29天的训练后,AlphaGo Zero已经能打败AlphaGo Master(也就是今年年初打败世界冠军柯洁的系统),比赛结果为89:11。
这个结果显示,当考虑到不同的技术的效率差别,人工智能领域需要学习的东西其实还很多。AlphaGo Master的设计方法和AlphaGo Zero非常相似,但是它一开始是利用人类棋手的数据训练,随后才开始自行学习的。
值得注意的是,AlphaGo Zero在这一周的训练中学习了几个关键概念,而且它学习的方法和人类不一样,比如围棋中的“征子”,也就是以形似楼梯的落子方法,它几乎是人类棋手的入门课程,但根据DeepMind在《自然》杂志上公布的,Zero是在训练后期才明白这个概念的。
另外,AlphaGo Zero在功耗上比它的前几代也更低。AlphaGo Lee需要使用数台机器,外加48块谷歌的张量处理单元以加快机器学习,再之前的版本AlphaGo Fan需要使用176块图形处理单元。AlphaGo Zero和AlphaGo Master只需要一台机器和四块张量处理单元。