【AI星球(微信ID:ai_xingqiu)】8月23日报道(编译:福尔摩望)
谷歌宣布对其旗下的云语音API产品进行重大更新,该产品于去年首次发布在谷歌的云机器学习平台上。
简而言之,云语音API可以让第三方开发人员及其公司将谷歌的智能语音识别集成到自己的产品中。例如,联络中心可以使用该API,通过监听呼叫者的指令来自动将呼叫转接到特定部门。今年早些时候,Twilio在其语音平台上接入了该API,从而让自己的开发用户能在产品中将语音转换成文本。
现在,谷歌宣布了云语音API的三个重大更新。首先是字级时间偏移量,也就是字级时间戳。这一更新可以让用户在长音频文件中寻找到特定单词,即将音频直接转换成文本,方便使用者精确找到单词或短语的位置。同时,它也可以实现文本在音频播放时实时呈现。
谷歌产品经理Dan Aharon说:“我们的头号需求功能是为记录中的每个单词提供时间戳信息。”根据Aharon的介绍,除此以外,谷歌还将对长音频文件的时间支持从80分钟延长到了180分钟,并会基于需求提供更长时间的支持。
云语音API的另一重大更新是在原有89中语言的基础上新增了30种语言,包括斯瓦希里语、阿姆哈拉语、孟加拉语、乌尔都语、古吉拉特语和爪哇语。总的来说,这次的更新让谷歌的语音识别技术覆盖到全球10亿人口。
值得注意的是,此次语音更新还会影响到谷歌自己的消费者产品,比如Gboard Android应用和智能语音搜索。
Aharon说:“新增加的语言支持将会帮助云语音API客户接触到更多国家的更多用户。此外,它还可以让更多国家的用户使用语音接触到以往无法获得的产品和服务。”
声音就是密码
根据近日发布的《研究与市场》报告,全球语音识别市场预计将在2017年底达到61.9亿美元,到2023年底将达到183亿美元。
在5月份的谷歌年度开发者大会上,CEO Sundar Pichai透露,谷歌的语音识别技术目前已经将错误率降低到4.9%,也就是说每转录20个字才会出现一次错误。相对于2013年的23%和2015年的8%,这已经是很大的改善了。
这一改善是谷歌于2012年在其语音识别平台上引入深度学习神经网络的直接结果。其工作原理是使用大量现有音频文件数据对系统进行训练,然后促使系统在接收新数据时进行相关推断。
谷歌并不是唯一在语音识别技术上下大力气的科技巨头。去年,微软宣布其语音识别技术可以达到人类水平。事实上,相关研究人员表示,与专业编辑相比,微软的NIST 2000自动化系统的错误率更低。
今年早些时候,Facebook通过其虚拟现实子公司Oculus推出了首个语音识别产品,可以让Oculus Rift和三星Gear VR用户对游戏、应用等进行语音搜索。