从声音中挖掘商机，企业正试图用算法听懂你

2019-03-18

语音分析的关键不在于人们说了什么，而在于人们是怎么说的，如语调、语速、重音以及停顿。

【猎云网（微信号：ilieyun）】3月18日报道（编译：逐夏）

声音很难被伪造，它不仅具有很多个人特征，还蕴含了心理健康与行为等方面的惊人信息。

Voicesense公司向其客户做出了一个有趣的承诺：提供给该公司某个人的声音，该公司就能告诉我们这个人将会做什么。该以色列公司可在通话中使用实时语音分析来评估某人是否有可能拖欠银行贷款、是否会购买更昂贵的产品或是否能成为工作的最佳竞选者。

这是众多试图挖掘声音中的私人信息的公司之一。近些年来，尤其随着家庭助手广受消费者欢迎，如亚马逊Alexa，研究者和初创企业都注意到了声音中蕴含着丰富的信息。据商业分析公司IdTechEx的一份报告，语音技术市场正在不断增长，预计到2019年市值将达到155亿美元。麻省理工学院麦戈文大脑研究中心一位对心理健康研究声音颇有兴趣的科学家Satrajit Ghosh表示：声音在生活中无处不在，几乎每个人都会说话，而很多设备如手机，Alexa和谷歌家庭等设备都可捕捉声音。

声音不仅无处不在，而且很个人化，也很难被伪造。在家中人们会使用Alexa，在医院里语音助手的使用也越来越普及。现在很多人都知道Twitter和Instagram上的帖子将会被监控，但很少有人认为声音是另一种形式的数据，它可告知我们关于我们自己的信息，也可把我们的信息泄露给他人。这些都引发了一系列令人兴奋的研究，这些研究主要聚焦于声音信息如何丰富生活，从声音中获取的信息是否准确，又将如何使用这些信息等隐私方面的问题。

语音分析的关键不在于人们说了什么，而在于人们是怎么说的，如语调、语速、重音以及停顿。语音分析的诀窍是机器学习。通过机器将俩组被标记的样本信息，如有焦虑症和无焦虑症输入到同一个算法之中，然后该算法学习捕捉到可表明某人是属于A组或B组的细微语音信息，之后在新的样本上可采用同样的方法来进行辨识。

卡内基梅隆大学的一位计算机科学家Louis-Philippe Morency表示结果有时候会与直觉相悖。Morency创建了一项名为SimSensei的项目，该项目可通过语音来探测抑郁症。Morency团队表示，在将声音特征与试图再次自杀的可能性相关联的早期研究中，他们发现相比发出紧张或愤怒的声音的人，发出轻柔呼吸声的人更有可能试图再次自杀。不过，该项研究仍处于初步阶段，而且关联性通常也不那么简单。通常来说只有算法能识别出来声音信息所包含的复杂特征及模式。

Voicesense公司可提供关于健康行为、工作行为、及娱乐等方面的预测。

尽管研究还处于初步阶段，研究人员已构建了可利用语音来帮助识别帕金森症和创伤后应激障碍等疾病的算法。对很多人来说，这项技术的最大前景在于将语音分析和心理健康相结合，从而创建出简单的方式来监控疾病并且帮助那些有复发风险的人。

布里格姆妇女医院数字行为健康项目的负责人David Ahern表示，精神患者在住院时会受到密切的监控，但很多精神状况的变化都发生在日常生活中，而日常生活会慢慢地让人疲劳。在这种情况下，曾被诊为抑郁症的人可能都不会意识到自己变得再次抑郁了。当人们不处于任何健康系统监控下，这种情况就会发生。如果病情恶化到要去急诊室的地步，就可能无法挽回了。从理念方面来说，创造出可监测健康行为的口袋传感器很可能就是一个早期预警系统，作用将十分强大。

Ahern还是去年12月推出的心理健康监控系统CompanionMx临床试验的首席研究员。该系统目前仅对医生和患者开放，其他初创企业如Sonde Health和Ellipsis Health，也有着创建类似心理健康监控系统的目标。患者可使用App录下音频日记，然后程序可分析这些日记以及通话记录和位置等元数据，从而确定患者在抑郁情绪、兴趣减退、回避和疲劳等四因素上的得分以及追踪随时间变化而变化的数据。这些信息受联邦隐私法HIPAA保护，但会告知患者并在面板上呈现给密切关注患者病情的医生。

据CompanionMx首席执行官Sub Datta称，该公司已对产品进行了长达七年的试验，试验患者超过1500名。该产品由另外一家语音分析公司Cogito研发，已获得DARPA（美国国防高级研究计划局）及国家心理健康研究院的资金支持。发表于《医学互联网研究杂志》上的研究结果表明，该项技术可预测抑郁症和PTSD（创伤后压力心理障碍症）的症状，不过还需要进一步的验证。

Datta还说到，在前期试验中，95%的患者每周至少会留下一次音频日记，医生每天至少会查看面板一次。尽管Ahern指出哪一部分最有用（是App本身吗？是反馈吗？是面板？还是它们的组合？）上仍有很多问题，但这些数据都代表着希望。研究还在继续中，其他结果还尚未公布。CompanionMx还计划与卫生保健组织合作，并在退役军人事务部中寻求机遇。

与此同时，Voicesense、CallMiner、RankMiner、以及CompanionMx昔日的母公司Cogito等企业承诺在商业中使用语音分析。大多数时候这意味着提高呼叫中心的客户服务参与度，但Voicesense有着更远大的梦想。Voicesense公司CEO Yoav Degani表示现在该公司已能生成完整的个性档案，但他的计划远不止安抚不满的客户。该公司对很多业务都颇感兴趣，如贷款违约预测、保险索赔预测、客户投资风格揭示、内部人力资源候选人评估以及员工离职评估。Degani还表示公司可提供关于健康行为、工作行为、娱乐等方面的预测，虽然不会百分百准确，但大部分时候都是准确无误的。

在Degani分享的一个案例研究中，Voicesense与一家大型欧洲银行合作对其技术进行了测试。银行向Voicesense提供了几千名债务人的语音样本（银行已知道谁拖欠了贷款，谁没有拖欠）。Voicesense在这些样本中运算其算法，并把录音分为低风险、中风险和高风险三类。在此项分析中，预测为低风险组中仅有6%违约，而预测为高风险组中有27%违约。在另一项考察临时员工离职可能性的评估研究中，算法归为低风险类中仅有13%离职，而高风险组有高达39%的员工离职。

当算法算错会发生什么？

麻省理工科学家Ghosh表示这些都是合理的应用，于他而言没有什么是危险的。但与任何预测性技术一样，如果分析做的不好，就很容易过度概括。一般来说，除非看到有证据表明某件事在很多人身上以及这一类人群上得到了验证，否则很难将某人的说法认为是理所当然。除非采样足够多，否则声音的特征会有相当大的差异，这也是为什么该公司不会做出强烈声明的原因。

CEO Degani还表示Voicesense的语音处理算法每秒可测量200多个参数，而且在很多不同语言上包括像普通话这样的声调语言都能测量准确。目前该公司的项目还处于试点阶段，但该公司与很多大型银行及投资者都保持着联系。他还提到，每个人都被这项技术所吸引。

客户服务仅是一方面，德莱克斯大学的一位犯罪学教授Robert D’Ovidio表示Voicesense设想的一些应用可能具有歧视性。想象一下打电话给抵押贷款公司，贷款公司通过语音判断你患心脏病的风险极高，然后由于你可能长时间不待在公司，你就会被归类为高风险人群。

D’Ovidio教授还补充说到，应建立消费者保护法来防止这些信息被收集。他希望随着人类的进步，我们能意识到无论什么形式，比如电子表格中输入的一行数字或是捕捉到的声纹，这仅仅只是数据。但我们至少应该要求当信息如语音被使用时应告知我们。此外，他希望看到在保护消费者的规章制度上能有所进展。

华盛顿大学法学院教授Ryan Calo指出像这样的消费者保护措施是存在的。美国有些州如伊利诺伊州已有相关法律来保证生物识别如语音识别的安全。Calo还补充到，无论技术是被用于语音分析还是简历筛选，与种族或性别等敏感类相关的偏见问题是其特有的问题。但当机器学习技术被用于面部或语音识别时，人们内心深处会感到不安，部分原因是由于这些特征都太个人化。尽管反歧视法真的存在，但当使用信息及歧视（社会还未能充分解决的概念）都能接受时，语音分析的很多方面会遇到更多问题。