百度推出AI音频转录工具SwiftScribe，30秒音频转录文本只需10秒

2017-03-14

上市公司

记者的福利来了！

【猎云网（微信：ilieyun）北京】3月14日报道（文/吕梦）

“10年前，语音识别的错误率高达80%，如今，我们将错误率从80%之高降到了仅有8%”，百度机器学习团队研究科学家Carl Case曾在接受媒体采访时表示，“如果我们在未来两三年内一直保持这种态势，我认为我们有可能做到用普通手机达到与人工水平相当的语音转录能力。”

虽然利用手机进行转录的工具还未出现，但百度硅谷研究院却在近日推出了一款能将音频快速转成文字的免费网页工具SwiftScribe。

百度首席科学家吴恩达表示，开发SwiftScribe的初衷是为解决用户的痛点，即手动转录的耗时性，从而提高工作效率并简化流程。

SwiftScribe的核心技术是基于百度2015年年底推出的语音识别产品DeepSpeech2。其神经网络使用标注语音数据训练了数千小时之后，学会了将声音与特定的词和短语对应起来。

除了先进的 ASR 技术，百度还设计了直观的快捷键和创新性的人机交互以解决间断问题，这是用户在转录时面临的最大麻烦之一。从语音识别系统到用户界面，百度 SVAIL 开发了 SwiftScribe 的每一个组件。

这种方法的最大优势是当用户转录和编辑时，系统同时也在自我学习和提高。这种端到端的训练也使SwiftScribe从市面上其他产品中脱颖而出。

插图1

据官方资料显示，2014年底，吴恩达及团队发布了第一代深度语音识别系统Deep Speech，系统采用了端对端的深度学习技术，当时实现了提高嘈杂环境下的英语识别准确率，实验显示比谷歌、微软及苹果的语音系统的出错率要低10%。

2015年8月，百度研究院新增了汉语的识别，准确率高达94%。这也让端到端的深度学习算法成为语音识别提升最重要的手段之一。同年9月，百度世界大会上，吴恩达也在期间展示了新一代的百度语音识别技术，验证在较为嘈杂的情况下，机器识别已经超过人类。

2015年底，百度研究院又发布了论文推出Deep Speech2，它能够通过深度学习网络识别嘈杂环境下的不同语言，所应用的HPC技术将识别速度提升了7倍。2016年，百度推出了应用DeepSpeech2的安卓输入法应用TalkType，让用户能够快速语音输入文字。目前，百度已在今年2月将HPC技术成功应用于深度学习中。

百度项目管理人武田介绍，SwiftScribe支持上传转录wav和mp3格式的音频文件。时间上，30秒左右的音频转录成文本大约需要10秒，一分钟左右的音频转录需要约30秒，一小时的音频则可能耗费20分钟左右的时间。其中，支持最长1小时的音频文件内容的传输。

尽管SwiftScribe能完成识别和转录，但事实上，通过该软件转录出的文本并未注明标点符号，用户还需对文本内容进行断句，并在单词的拼写或大小写上进行矫正。为了方便用户校对时调慢音频语速，SwiftScribe还提供变速阅读工具。

插图2