阿法狗亲爹DeepMind又推逆天读唇软件，准确率接近人类专家四倍

2016-11-25

一个经验丰富的人类读唇专家，其正确率也仅为12.4%而已。

【猎云网（微信号：ilieyun）】11月25日报道（编译：海倩）

Google的AI部门DeepMind和牛津大学的研究人员们通过使用人工智能技术，共同研发了一款最准确的唇读软件。他们从英国BBC中选用了数千小时的电视画面，科学家训练神经网络为视频镜头注释，其准确度高达46.8％。起初，这一数字可能并不令人印象深刻，尤其是在与AI转录音频的准确率进行比较之后。但是若用同一个画面进行测试，一个经验丰富的人类读唇专家，其正确率也仅为12.4%而已。

在本月早些时候，牛津大学首先成立了一个单独的研发小组。科学家们通过使用相关技术，发明了一个名为LipNet的读唇软件，在一项测试中它实现了93.4％的准确率，而人类读唇专家准确率才到52.3％。但是，这一数据，其实是在特制的视频片段上进行测试并得出的，视频的录制都是请志愿者说一些公式化的表述。相比之下，号称“看、听、读、拼”兼备的DeepMind软件，是在从BBC政治节目中随意选取自然且不加说明的对话中进行测试的，这一举措更具挑战性。

为了对DeepMind的“看、听、读、拼”功能进行训练，研究小组选了5000多个小时的电视节目，包括大量的新闻节目，如Newsnight、Question Time和World Today。这些视频涵盖了11.8万个句子，约1.75万个独立单词。反观LipNet测试数据库的视频中，仅有51个单词。

DeepMind的研究人员还表明，该程序还有其他广泛的应用价值，比如帮助听力障碍人士理解对话。它还也可以为无声电影作注释，也允许用户通过口型来控制如Siri或Alexa一样的虚拟助理。

但是当大多数人知晓AI程序已然学会唇读之后，第一个想法就是如果人们将其应用于监视中，他们又该如何。而研究人员表示，该技术需要在明亮的、高分辨率视频画面中运行，目前的低帧率监控视频还不具备此操作条件。然而我们却不能忽视，人工智能似乎正在缩小着这个差距。