年入23亿，145家火锅店撑起一个IPO

父女齐上阵，港交所来了个“隐形冠军”

拉货的也要造车，3座侧滑门续航305km，货拉拉打的什么算盘

正式确认，雷诺CEO将执掌奢侈品巨头开云集团

立即打开APP

首部AI配音纪录片播出，央视已故播音员屏幕前“原音重现”

2018-01-22

AI模拟人声，原音重现。

【猎云网（微信：ilieyun）北京】1月22日报道（文/吕梦）

注：本文转自猎云网旗下专注人工智能的垂直媒体AI星球（微信：ai_xingqiu）。

今晚，世界首部利用人工智能模拟人声的纪录片将会在央视纪录片频道播出，这部名为《创新中国》的纪录片解说词部分全程运用人工智能配音，“重现”已故配音大师李易的声音。

熟悉早年《焦点访谈》的观众或许都听过“用事实说话，焦点访谈”这段雄浑深沉的声音。声音的主人就是我国著名播音员、配音演员、语音艺术家李易，他曾给《再说长江》、《大明宫》、《美丽中国》、《人类星球》、《迁徙的鸟》等多部纪录片进行配音。

遗憾的是，自李易2013年因病去世后，大众再也无法从电视节目中“听”到他新的声音了。

著名播音员、配音演员、语言艺术家李易

而这一次，通过科大讯飞的语言合成技术，AI成功地模拟出了李易的声音，完成了整部纪录片的配音解说。

在人工智能模拟的声音和李易老师生前的作品进行对比之后，李易生前的好友李瑞英和朱军等主持人甚至都表示基本听不出差别。

语音合成技术又叫文语转换（Text-To-Speech），简称TTS，是将文本转换成语音的一种技术，也是人机交互中必不可少的一个环节。

它不仅能让机器人“像人一样开口说话”，而且能给出多种方式的反馈，比如文字和图片的展示、动作等，语音的反馈也是其中一个重要的方式。

这项技术是科大讯飞的强项，目前在语音合成大赛blizzard challenge中已经拿下12连冠。5分制的比赛中，语音合成效果达到了4.0分，接近自然语音的4.8分。

在今年11月的发布会上，科大讯飞董事长刘庆峰还秀出一段美国总统特朗普用中英文给观众打招呼的合成语音短片。

语音合成随着技术的发展，现在合成语音的自然度和音质都得到了明显的改善。

汽车导航内嵌的语音系统、智能手机语音助手、读书软件等等，这些应用的实现都离不开语音合成。时下热门的AR、机器人、可穿戴设备等也为语音合成技术落地提供了更广阔的市场。

对大多数用户来说，语音合成技术的运用最熟悉的恐怕就是高德地图里林志玲的声音了。在导航应用中，对如”向左转弯”、”前方摄像头”等固定的语句可以采用原声，而对于地名、距离、速度等许多涉及具体数字的文字就不可能让志玲姐姐逐一录制了。

而是在开始合成前，请林志玲录了一些音频。之后的事情就交给科大讯飞来解决了。

来我们来看一下真正的合成过程：

1.输入文本后首先需要按照词典规则对文本进行语言处理，主要模拟人对自然语言的理解过程，包括文本规整、词的切分、语法语义分析，使计算机对输入的文本能完全理解，并给出后续步骤所需要的各种发音提示。

2.然后是韵律处理，就是为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然。最后根据前两部分处理结果的要求输出语音，即合成语音。

2016年，11月30号，亚马逊的AWS发布了三项人工智能技术服务：Amazon Rekognition，Amazon Polly和Amazon Lex。

其中，除了Amazon Rekognition属于图像识别技术，其他两项服务都是语音交互的链条。Amazon Polly 利用机器学习技术，能够快速实现从文本到语音的转换。

Amazon Lex 就是亚马逊的人工智能助手 Alexa 的内核，而 Alexa 已经被应用于亚马逊的 Echo 系列智能音箱。

根据AWS服务网页的示例展示和实际调用，Polly 的发音与人声已经非常相像，很多时候已经很难分辨机器与人声的界限。

不仅如此，Polly 还能够按照语境对同形异义词的发音进行区分，比如说，在 “I live in Seattle” 和 “Live from New York” 这两个不同的语境下，单词 “Live” 的发音是不同的，而 Polly 在发音过程中就能够很好把握它们之间的区别。

Amazon Polly 共拥有 47 种男性或女性的发音，支持 24 种语言，遗憾的是目前还不支持汉语。

相对Amazon的节奏，Google似乎慢了许多。2017年底，谷歌推出了一款名为“Tacotron 2”的全新文字转语音系统，不仅发音和真人难辨真假，且实际文本阅读效果几乎同真人声音无法区分。

事实上，谷歌旗下DeepMind实验室早在2016年就推出了WaveNet深度神经网络，该网络在经过真实语音训练后可以根据文本直接生成音频。

过去12个月中，DeepMind一直在努力大幅度提高模型的速度和质量，用于“生成能够产生比现有技术更好、更逼真的，语音原始音频波形”。

“Tacotron 2”其实已经是谷歌的第二代类似技术，它由两个深度神经网络组成。其中一个负责将文本转换为可视化的图谱（通常是PDF格式），然后再将这个生成的这个可视化图谱载入第二个深度神经网络WaveNet（这个神经网络是从DeepMind实验室孵化而来），并将其还原为一个真实的声音。

目前，该系统只进行了英语女声的训练（如要需要它发出男性声音的话，谷歌则需要对其进行重新“培训”）。

谷歌的研究人员表示，“Tacotron 2”完全可以准确发音一些非常复杂的单词和人名，并根据标点符号的不同而有所区分，甚至能够完美地讲完一段绕口令。

举例来说，“Tacotron2”会默认在读到大写单词的时候加重语气，也能够处理少量的人为打字错误。

同谷歌正在研发的其他核心AI技术不同，“Tacotron 2”不仅仅是某种一直停留在实验室阶段的技术，而是将对公司其他产品起到立竿见影的作用。

举例来说，谷歌实际上已经将深度神经网络WaveNet用于在GoogleAssistant中生成更为真实的语音反馈。而一旦这一产品在未来迎来进一步完善后，它显然会对提升谷歌其他产品的用户体验提供更大帮助。

在此之前很长一段时间内，语音合成技术都是采用拼接方式，需要记录大量语料才能进行语音合成。这样的方法不仅前期需要处理大量数据，而且一旦说话人有所改变就需要重新记录和处理，所以业界一直在寻找可以实时生成语音的方式。

深度学习带给了语音识别巨大的进步，但是以Siri为代表的手机语音交互一直不温不火，直到Echo和车载这类智能设备的出现，语音识别才突破手机的限制，真正落地到真实的垂直场景。

很多人可能会问，没有录音棚录制的音频材料怎么办？事实上，我们可以利用来自互联网的海量音频数据。

网络音频往往音质差、信道不统一、多个人声融合在一起。讯飞研究团队提出海量数据无监督音库制作方案（下图），综合运用讯飞公司全面而完备的语音技术力量，通过整合信号处理、说话人识别、语言模型、语音识别、自然语言处理等各方向成熟技术，以全自动无监督方法快速得到单个目标发音人的纯净音库。

未来这一技术具有很多的应用前景，例如可以使用评书名家的声音给老人们读书讲报。用评书、武侠、言情等多样化风格为用户们读小说。

甚至可以通过语音交互的积累，自动定制你个人音色的语音合成系统；再比如自动处理家庭DV录像，将孩子们的童声童语制作成父母专属的合成系统等等……

打开猎云网APP，查看原文

猎云网APP阅读全文

体验更加

微信扫码关注猎云网

猎云网原创文章未经授权转载必究，如需转载请联系官方微信号进行授权；
转载时须在文章头部明确注明出处、保留官方微信、作者和原文链接，如：转自猎云网(微信号: lieyunjingxuan )字样；
猎云网报道中所涉及的融资金额均由创业公司提供，仅供参考，猎云网不对真实性背书。
联系猎云，请加微信号：jinjilei

首部AI配音纪录片播出，央视已故播音员屏幕前“原音重现”

著名播音员、配音演员、语言艺术家李易

{{item.post_title}}

{{item.title}}

落地超650项改进措施 SHEIN助供应商减碳超7.5万吨

正式确认，雷诺CEO将执掌奢侈品巨头开云集团

智算云新范式：九章云极以“1度算力”点燃AI普惠之火