【猎云网(微信号:ilieyun)】3月14日报道(编译:Panda)
语音产业是今年科技领域的一大产业。到目前为止,亚马逊公司大概售出了一千万台Echo,你可以看到Alexa在国际电子消费展上的影响力,谷歌也推出了自己智能语音设备,这貌似是一个新平台。有很多不同的原因促成了语音产业井喷式的发展,当然在发展的同时也存在很多问题。首先,让我们先来看看原因。
首先,语音产业是一大产业,这是由于当下的语音输入方式和之前大不相同。过去几年中机器学习领域的进步意味着计算机正在变得能更好地识别人类语言。从技术角度讲,在语音产业有两大不同产业,分别是语音识别和自然语言处理。语音识别完成的工作是将语音转换为文本,而自然语言处理则是接受转换的文本并完成其中的指令。自2012年起,这些任务的错误率从大约三分之一降到了5%以下。换句话说,这些工作在过去大部分是不能完成的。不过,这依然不完美,在日常使用过程中,5%的错误率就意味着你每天或每两天就会遇到一些麻烦,在推特上人们各种晒语音助手根本无法识别的实例。不过,智能语音设备正在持续不断的提升,我们知道如何提升智能语音设备。
第二点,智能手机供应链的存在意味着制作一台配备有麦克风、快速CPU和无线芯片的手机变得更容易了。去年的智能手机的销售量为15亿,各式各样更好且更便宜的零部件为手机市场应运而生,并且大规模生产,不过这也为其它领域提供了便利。在深圳,围绕智能手机集中有大量专家、协议制造商和顾客,这意味着你不仅能获得零部件,你还可以找个人把它们组装起来。硬件部分依然是个难点,不过不像之前那么困难了。所以,如果你想把你设计的魔音盒做出来,那么你就能做出来。
第三点,主要的互联网平台公司(包括谷歌公司、苹果公司、Facebook公司和亚马逊公司)的总收益大概是Wintel联盟在上世纪90年代收益的十倍,这些互联网公司正在改变世界,并且足以使一些小公司胆寒。所以,所以有大量的人力、物力和财力可用于一些有趣的小项目。
第四,智能手机和大多数的桌面网络浏览器不同,它并不是一个中立的平台,苹果公司和谷歌公司在移动网络领域极尽所能的控制,这与微软公司在桌面网络领域的方式不同。这使得互联网公司感到恐慌,谷歌公司忌惮苹果公司,这也是谷歌公司收购安卓公司的一大原因,而亚马逊公司和Facebook公司相互芥蒂。这些互联网公司想要拥有自己的顾客平台,但是却不能如愿。这也是推动诸如Kindle Fire、Alexa和Facebook通讯机器人等等项目的一大动因。
这些因素都为语音产业注入了动力和机遇。然而,这并意味着语音设备发挥了作用,或者更确切的说,我们需要明确“发挥作用”的真正含义是什么。
所以,我刚才说的语音输入发挥了作用,也意味着现在可以使用音频波形来填充对话框,你可以将声音转化为文本,并将文本转化为结构化查询语言,并且你可以计算出将结构化查询语言发往何处,问题在于没有发送的地方。如果想用声音填充一个对话框,那对话框必须存在,也就是说需要首先建立一个对话框。如果想构建一套航班订票系统、一套调度系统和一套音乐会订票系统,以及其它诸多用户需要的系统,在你用声音连接这些系统前,你也必须先构建这些系统。否则,如果用户想要实现什么别的功能,你完成的仅仅是将他们的声音转化为文本,但是并不能用这一文本做什么,你需要构建一套转化系统。那么问题来了,你可以构建多少套这样的查询系统?你需要构建多少套这样的查询系统?你能把它们转储到网络搜索中吗?
机器学习,就是说我们使用大量数据来生成可以理解演讲和自然语言的模型,这样就可以取代我们旧有的手抄方式。但是我们并不能用数据构建你想要连接的所有查询系统。你仍需手动完成这些工作。你使用机器学习来构建专家系统的前端,但是专家系统仍是一个手工构建的模型。尽管你可以使用一些从0.1%可能存在的问题中汲取预定义函数和开发者生态系统来解决1%的问题,但是仍有99%的错误率。从根本上讲,你不可能为人们所有可能存在的问题找到答案,同时我们也无法用机器完成这一任务。如果,有一天我们实现了,这就意味着我们拥有了更普遍意义上的人工智能,这起码要等到数十年之后。
换句话说,许多语音设备的陷阱就是你假装用户正在与HAL9000交谈,但实际上你只不过创建了一个更好的智能语音查询系统,并且你也不知道如何将智能语音查询系统转化为硬件抽象层。
除此之外还有一个问题,用户知道他们可以问什么吗?我怀疑智能语音设备功能的理想数量实际上服从一条U形曲线:一个指令最好,十个指令或许也是可以的,但是50或者100个就太可怕了,因为这时你并不是什么都能问,还记不住科可问的是那些。在曲线的另一端,即你越来越接近于得到一个你可以问任何问题的系统,但是这就将成为普遍意义上的人工智能。你可以动用大量人力和财力构建出构建出一套可以回答成百甚至上千不同问题的系统,但是实际效果却适得其反。
和本文观点相悖,一些大平台公司已经动用大量人员键入自然语言查询作为搜索请求。今天,他们可以通过一张搜索结果报告来回答这些问题,但是他们可以针对100个或500个最普遍的问题给予结构性应答,这就是谷歌公司的技术路线图。所以用户没必要知道他们可以问哪50个问题,但是针对前50种问题,他们可以获得更好的反馈而不仅仅是一些链接。很明显,这一功能可以在一个屏幕上很好的实现,但是却不能在语音设备上得以实现。不过更广泛来讲,这一系统如何在实践中很好地运作是一个分配问题,或许所有的问题都可以归结为谷歌总结的500类框架中,但是我每天问Google Home的问题中有多少在那500类中,并且我得不到应答的频率是多少呢?
针对这种趋势,我们可以得出这样的结论,对大多数公司而言,语音设备仅能在一个狭小且可预测的领域工作。你需要知道用户可能要问什么问题,并且用户需要知道他们能问什么问题。这也是Siri存在的结构性问题,无论语音识别部分运作的有多好,你仅仅只能问20个问题,然而苹果公司给人们的印象是你可以问任何问题,所以当你问一些列表上没有的问题时,你并不能得到答案。相反,亚马逊公司的Alexa在什么能问和什么不能问这一问题上似乎做的更好,但是这是因为你知道你什么能问。你需要选择一个没有限制的领域。
同时,即便我们真的拥有HAL 9000,对于一些任务而言声音并不一定是最合适的用户界面。让一个真人来替你改签航班或是预订酒店是错误的用户界面,毕竟用户是想看选择的,在自动语音应答平台上买衣服也会是一种很糟糕的体验。所以,声音的一大问题在于并不是说人工智能并不够好,而是人类的声音自身也存在局限性。你可以通过增加一个显示屏来解决一些这样的问题,正如传闻的亚马逊公司的Echo一样。紧接着,你也可以增加一个触摸屏,和一些用于实现不同功能的图标。你可以把它称作“图形用户界面”,把声控部分作为可选项...
当我考虑这一意识层面的问题时,我想我有必要将Alexa和Apple Watch做一下对比。这两种产品的功能,你的手机都可以办到,但是它们应用背景不同并且可以在更少接触下完成这些功能。更少的接触,打比方说当你在厨房时,你可以使用 Alexa或是智能手表来设定时间或是完成质量换算。但是你需要改变自己的思维定式,你习惯上掏出手机来完成这些任务,所以这种新型设备会打破你的旧有习惯并建立新的习惯吗?一旦新的习惯或意识建立,那么一个语音助手或是一块手表就够了,这比掏出手机更好,但是前提是你得先培养新的习惯。
进一步来讲,或许有一系列的行为都可以通过语音设备更好的实现,这不是因为这些功能便与构建或者说这些指令更可能被使用,而是因为在完成开灯、播放音乐或是计时这些工作时,心智模型能更好的发挥作用。这就是说,一个仅能完成一件事情和只有一项指令的设备或许最适合用声音控制,即便从理论上将它时候完全开放的。
我认为这里存在一些矛盾之处。从理论上讲,相较于智能手机,语音设备显得更无拘无束且目的明确,但是语音设备实际上更狭隘且功能单一。无需掏出手机,解锁,加载应用等等,但是你首先得转变思维模式。语音设备像是未来的智能手机,但是就它们锁定和关闭方面的性质而言,它们也很像是一种特色手机或是便携设备。这可以用来源于电脑动画‘诡异谷’的概念很好的解释:当将卡通人物转化为现实人物时,有这样一个点,当增强现实时会使得人物看起来不那么真实。这会使得技术在一开始产生更糟糕的用户体验。
回到我最初的观点,有一系列因素促使人们希望语音设备成为新生事物。有一点我未曾提到,现在移动领域已经不再是高增长行业,科技产业正在寻求下一个大项目。我认为语音设备肯定是一大热门,但是我们仍需较长的时间来期待下一个平台转变。