机器学习的新玩法——电脑预测，也许将来AI会告诉你“凶手是谁”

2016-09-14

目前，电脑的预测并不总是和“正确的视频”相吻合，但至少“这些动作还过得去”。

【猎云网（微信号：ilieyun）】9月14日报道 （编译：蔡妙娴）

如果有人给你展示一张照片，你大概也能猜测到照片中的人或事物下一步会发生什么，并且准确度还挺高。骑着自行车的女士会继续向前，小狗会接中飞盘，那个男人会一屁股摔到地上，诸如此类。对人类来说，这是一项最基本的技能，我们不需要多少信息（比方说重力、惯性、摔倒的性质等）就能做出合理预测，而如何教会电脑做这种预测，这是机器数据研究领域的重大挑战之一。

麻省理工的研究人员希望能解决这一问题。他们通过使用特殊训练过的神经网络，试图将图像转变为视频，并让电脑来预测下一步会发生什么，目前，研究人员们已经取得了一些惊人的成功。他们的模型存在大量局限，比方说视频只有几秒长，比较短小，而且内容通常有点吓人。不过，这仍然是机器想象领域的重大进步，也让机器离能够和人一样理解这个世界更进了一步。

研究人员从Flickr上下载了200多万条视频，用于训练神经网络。这些视频主要分为四种场景：高尔夫球场、沙滩、火车站和医院（医院场景主要是大量新生儿的照片）。研究人员对视频镜头进行了稳定处理，以免出现摄像机晃动。在消化吸收这些数据后，该研究团队的神经网络不仅能够生成与上述场景类似的短视频，还能在观看静止照片的基础上，生成下一步的镜头。不过，该神经网络对下一步的理解，仅仅局限于像素可能会如何变化，而不是从根本上理解视频中发生了什么。

大概是这样：

我们很容易就能理解研究人员现在所取得的成果，与还欠缺的地方。在沙滩视频中，你可以看到海浪一阵阵袭来；在火车站场景中，该模型知道火车将继续前行并超出摄像机镜头。但是，当你问电脑一个人会怎样穿过高尔夫球场时，它给出的答案完全不像人的作答。电脑的回答很模糊，很不切实际。研究人员注意到，电脑的预测并不永远与“正确的视频”相吻合，但至少“这些动作还过得去”。

要在这些似真实假的视频的基础上进一步研究，其难易程度可想而知。不过，其他的机器学习系统已经在相关领域取得了进展，比方说预测握手、拥抱等动作，甚至生成与视频相匹配的声音。在去年的一场访谈中，Facebook的人工智能技术主管Yann LeCun着重提到了这一话题，并表示，取得上述研究中生成下一步动作的成果，相当于完成了创造预测性计算机这一大拼图的其中一块，但是要让计算机真正理解视频或图像中的内容，未来我们还要付出更多努力。

“如果你正在看一部英国著名导演希区柯克的电影，然后我问你，‘接下来的15分钟内，剧情的走向会是什么样的’，这时你会琢磨，谁是凶手呢？”LeCun说，“彻底解决这个问题需要对世界有着全面的了解，对人性有着清晰的掌握。这也是计算机预测有意思的地方。”