【猎云网(微信号:ilieyun)】11月25日报道(编译:海倩)
Google的AI部门DeepMind和牛津大学的研究人员们通过使用人工智能技术,共同研发了一款最准确的唇读软件。他们从英国BBC中选用了数千小时的电视画面,科学家训练神经网络为视频镜头注释,其准确度高达46.8%。起初,这一数字可能并不令人印象深刻,尤其是在与AI转录音频的准确率进行比较之后。但是若用同一个画面进行测试,一个经验丰富的人类读唇专家,其正确率也仅为12.4%而已。
在本月早些时候,牛津大学首先成立了一个单独的研发小组。科学家们通过使用相关技术,发明了一个名为LipNet的读唇软件,在一项测试中它实现了93.4%的准确率,而人类读唇专家准确率才到52.3%。但是,这一数据,其实是在特制的视频片段上进行测试并得出的,视频的录制都是请志愿者说一些公式化的表述。相比之下,号称“看、听、读、拼”兼备的DeepMind软件,是在从BBC政治节目中随意选取自然且不加说明的对话中进行测试的,这一举措更具挑战性。
为了对DeepMind的“看、听、读、拼”功能进行训练,研究小组选了5000多个小时的电视节目,包括大量的新闻节目,如Newsnight、Question Time和World Today。这些视频涵盖了11.8万个句子,约1.75万个独立单词。反观LipNet测试数据库的视频中,仅有51个单词。
DeepMind的研究人员还表明,该程序还有其他广泛的应用价值,比如帮助听力障碍人士理解对话。它还也可以为无声电影作注释,也允许用户通过口型来控制如Siri或Alexa一样的虚拟助理。
但是当大多数人知晓AI程序已然学会唇读之后,第一个想法就是如果人们将其应用于监视中,他们又该如何。而研究人员表示,该技术需要在明亮的、高分辨率视频画面中运行,目前的低帧率监控视频还不具备此操作条件。然而我们却不能忽视,人工智能似乎正在缩小着这个差距。