不想讲AI语音交互的故事，声智科技打算树立垂直场景下的前端智能

2016-09-01

早期项目

物理解决首要痛点。

【猎云网（微信：ilieyun）北京】9月1日报道（文/赵子潇）

国内把声学和人工智能结合的企业已不在少数，云知声、科大讯飞、思必驰等均在此列。不过，在人工智能技术尚未成熟之时，一家专注于声学的创业公司希望把人们的目光拉回前端的语音识别交互。

声智科技创始人陈孝良在接受时表示，深度学习对语音交互的发展来说是一个很大的提升，但是目前还无法解决真正场景下交互的问题。

“我们通常所说的语音识别准确率95%以上，是实验室里得出的数据，真实场景中语音识别准确率不到60%。"陈孝良表示，如何提高真实场景中语音交互识别率，是五年内要解决的问题，也是人工智能普及的前提。

小样本学习填补空白

而现在声学方面的深度学习在训练模型时需要大量数据，在数据获取和数据标注方面，人工依然是主流方向，智能则遥遥无期，没有办法完成自我学习。

“人工智能下围棋有一套标准程序来判断输赢，但不适用于语音交互的真实场景，原因在于人工智能对于声音识别无法反馈，形成闭环。”很明显，深度学习不能解决人工智能当前所有的问题，声智科技采用了一种过渡的方式来填充人工智能的空白期——小样本学习。

深度学习和小样本学习两者的区别，概括的说一个是归纳，另一个是演绎。深度学习的基础是大量数据，“小样本学习”首先就要解决深度学习的这种弊端，即不依赖大数据也能进行自我学习。当数据量巨大但较混乱的情况下，深度学习能发挥优势；而在数据量较少而清晰的情况下，小样本学习占领上风。

小样本学习同时也给数据标注提供了方向和参考，深度学习训练过程需要大量的标注数据，而标注数据现在完全依赖大量高成本人力，这实际上制约了深度学习训练的规模。陈孝良告诉猎云网，声智科技的技术未来不仅要依靠小样本孤例学习和大数据深度学习实现云端智能，也要实现前端智能，这样才能建立前端数据采集的标准，挖掘数据的更深层次的价值，为云端大数据训练提供真实有意义的数据，最终获得真实有效的数据模型。

首个应用场景是智能音箱

声智科技在9月15日即将发布其第一代产品，麦克风阵列套件及面向远场语音交互的智能音箱开发套件。陈孝良表示，第一代产品以提高语音识别准确率为主（可提高到80%），在明年上线的二代产品将提供更具个性化的声纹识别和情绪识别技术。

选择智能音箱为突破口，也是声智科技对当前音箱市场的认知。作为对标产品，亚马逊Echo智能音箱的成功，已经验证音箱是一个最具潜力的落地点。据今年6月第三方机构CIRP的统计显示，Echo销量已经超过300万台。在今年5月召开的2016 I/O开发者大会上，谷歌也宣布推出Google Home智能音箱产品，基于谷歌搜索的大数据优势，集成其在人工智能和自然语言理解方面的技术优势。

陈孝良告诉猎云网，比起Echo智能音箱，声智科技的智能音箱开发套件具有“后发优势”：成本更低，并且加入某些单独模型的功能，改进后的效果更好。前端有差别，不会像Echo成本一样高，导致成本高；声智科技加入某些功能，唤醒有单独的模型，识别率更高，噪声回声等方面都有改进，效果更好。根据声智科技的估算，具有安卓开发经验的工程人员，完全可以在7天的时间内用声智科技的开发套件设计出一套自己的智能音箱。

目前，声智科技已经正式上线面向智能安防和机器人量产的方案，采用该方案的360水滴和360儿童机器人已于7月和8月上线量产。声智科技团队共25人左右，核心算法团队来自中科院声学所，在北京、合肥、德国、美国等地分布。

据悉，声智科技在公司成立之初即获得千万级天使投资，领投方为峰瑞资本。

产品：声智科技
公司：北京声智科技有限公司
网址：soundai.com