【猎云网(微信号:ilieyun)】9月14日报道 (编译:蔡妙娴)
如果有人给你展示一张照片,你大概也能猜测到照片中的人或事物下一步会发生什么,并且准确度还挺高。骑着自行车的女士会继续向前,小狗会接中飞盘,那个男人会一屁股摔到地上,诸如此类。对人类来说,这是一项最基本的技能,我们不需要多少信息(比方说重力、惯性、摔倒的性质等)就能做出合理预测,而如何教会电脑做这种预测,这是机器数据研究领域的重大挑战之一。
麻省理工的研究人员希望能解决这一问题。他们通过使用特殊训练过的神经网络,试图将图像转变为视频,并让电脑来预测下一步会发生什么,目前,研究人员们已经取得了一些惊人的成功。他们的模型存在大量局限,比方说视频只有几秒长,比较短小,而且内容通常有点吓人。不过,这仍然是机器想象领域的重大进步,也让机器离能够和人一样理解这个世界更进了一步。
研究人员从Flickr上下载了200多万条视频,用于训练神经网络。这些视频主要分为四种场景:高尔夫球场、沙滩、火车站和医院(医院场景主要是大量新生儿的照片)。研究人员对视频镜头进行了稳定处理,以免出现摄像机晃动。在消化吸收这些数据后,该研究团队的神经网络不仅能够生成与上述场景类似的短视频,还能在观看静止照片的基础上,生成下一步的镜头。不过,该神经网络对下一步的理解,仅仅局限于像素可能会如何变化,而不是从根本上理解视频中发生了什么。
大概是这样:
我们很容易就能理解研究人员现在所取得的成果,与还欠缺的地方。在沙滩视频中,你可以看到海浪一阵阵袭来;在火车站场景中,该模型知道火车将继续前行并超出摄像机镜头。但是,当你问电脑一个人会怎样穿过高尔夫球场时,它给出的答案完全不像人的作答。电脑的回答很模糊,很不切实际。研究人员注意到,电脑的预测并不永远与“正确的视频”相吻合,但至少“这些动作还过得去”。
要在这些似真实假的视频的基础上进一步研究,其难易程度可想而知。不过,其他的机器学习系统已经在相关领域取得了进展,比方说预测握手、拥抱等动作,甚至生成与视频相匹配的声音。在去年的一场访谈中,Facebook的人工智能技术主管Yann LeCun着重提到了这一话题,并表示,取得上述研究中生成下一步动作的成果,相当于完成了创造预测性计算机这一大拼图的其中一块,但是要让计算机真正理解视频或图像中的内容,未来我们还要付出更多努力。
“如果你正在看一部英国著名导演希区柯克的电影,然后我问你,‘接下来的15分钟内,剧情的走向会是什么样的’,这时你会琢磨,谁是凶手呢?”LeCun说,“彻底解决这个问题需要对世界有着全面的了解,对人性有着清晰的掌握。这也是计算机预测有意思的地方。”