高开180%市值超130亿,“宁王”收获一个IPO
高开180%市值超130亿,“宁王”收获一个IPO
携程Q3大“赚”,但还能更“赚”
携程Q3大“赚”,但还能更“赚”
较劲的Q3:乐观者李斌,“史上最强”何小鹏,李想开上法拉利
较劲的Q3:乐观者李斌,“史上最强”何小鹏,李想开上法拉利
捷豹重生改命,LOGO大变样,马斯克:你们还是卖车的吗
捷豹重生改命,LOGO大变样,马斯克:你们还是卖车的吗
立即打开APP
Apollo
私信
7

谷歌研发新型深度学习系统,能够在嘈杂环境中识别分离语音

2018-04-16
上市公司
谷歌表示自己期待这种技术能“在众多宽泛的情境下得以应用”。

【猎云网(微信号:ilieyun)】4月16日报道 (编译:叶展盛)

谷歌研究员开发出了一种深度学习系统,能帮助计算机在嘈杂的环境下识别和分离语音。

正如本周公司在Google Research里公布的那样,谷歌的一支团队想要模拟出人类大脑的“鸡尾酒会效应”,即某个人在谈话之中会忽略背景中其他的对话或噪音。

谷歌采用了一种视听模式,因此其主要任务就是将视频里的语音分离出来。这家公司表示,这种技术能通过算法,分离出单音轨视频中的语音,你可以手动选择某个人物,那么就会播放这个人物的声音。

谷歌表示,视觉成分是这里的关键,这种技术会观察某个人嘴部的活动,从而更好地确定要识别哪个语音,从而创建出更加精确的个人音轨。

根据博客的内容,研究人员在开发出这个模式的过程中,搜集了YouTube上10万多份演讲和谈话,并从中提取了2000多小时的有效片段,并将这些声音混合,并加入人工智能背景噪声,创建了一个“模拟鸡尾酒大会”。

随后谷歌就开始训练它通过解读人们的“脸部微小动作”以及视频的频谱图,将这份混合的音频分解掉。这个系统能理清哪个声源属于哪一张脸,并为每一个人创建自己的音轨。

谷歌表示自己期待这种技术能“在众多宽泛的情境下得以应用”,目前自己正在尝试将它整合到现有的谷歌产品中。Hangouts和YouTube似乎是两种容易应用的地方。另外我们也不难预见,这种技术也能在语音放大耳机以及智能眼镜,也就是Google Glass上得到应用。

和Google Home这些智能音箱进行的语音识别不同,这种技术似乎更适合让讲话者配一台屏幕,因为它的模式就是基于视频的。今年早期,谷歌对Echo Show等“智能显示屏”设备开放了Google Assistant,但这家公司目前还尚未推出自己的产品。

猎云网APP阅读全文

体验更加

猎云网

微信扫码关注猎云网

  1. 猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权;
  2. 转载时须在文章头部明确注明出处、保留官方微信、作者和原文链接,如:转自猎云网(微信号: lieyunjingxuan )字样;
  3. 猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。
  4. 联系猎云,请加微信号:jinjilei
猜你喜欢
长按图片可以分享给好友
×