搜狗CEO王小川：人工智能发展分三个阶段，目前实际应用仍存局限

2017-03-27

A轮后

王小川对人工智能技术应用的思考

【猎云网（微信：ilieyun）北京】3月27日报道

如今，人工智能风口已经来临。由猎云网（微信：ilieyun）主办的2017人工智能产业创业创新峰会也将于4月13日在北京四季酒店召开。而就在今天的洪泰基金CEO春分大会上，搜狗CEO王小川为听众带来了题为《人工智能技术的思考与应用》的主题演讲。

王小川认为，在去年AlphaGo之后，人工智能开始正式进入风口期。人工智能分为三个应用层次，即：1.将传统规则教给机器；2.将答案教给机器记忆学习；3.将目标给机器自我学习。目前我们的人工智能正处在第二阶段的高级阶段。

另外他指出，现在的人工智能还是有很多的局限性，例如机器需要在学习和判断时有一个前提条件（或训练场景）。对To C而言，图像和语音的深度学习非常重要。语音识别并非人工智能的核心，但是人工智能的未来发展基础。

需要特别注意的是，王小川直言，让人工智能进行判断和决策，这其中蕴含着巨大的商业价值。

以下是王小川的演讲实录，猎云网（微信：ilieyun）整理删改。

人工智能是往三个阶段走。我们还处在第二阶段的高级阶段。

人工智能这个话题不是新课题，在上个世纪60年代、80年代就在做人工智能。那时候做人工智能的教授其实很不幸，因为当时的人工智能水平是远远不够的。

当时人们把对自己世界的认知变成了规则，转成了机器人，就是把这个规则告诉机器。这是那个时代的工作。那是60年代到80年代，人们对规则的表达是偏离这个目标的。

80年代之后，基于统计方法来做的人工智能，不是尝试把人对于世界的认知告诉机器，而是让机器学，让你看答案是什么。一方面是把原始的问题，看到问题之后把答案给他，这是走上了让机器人学习的道路，这搞了几年。

这个答案很清楚，很经典案例就是人脸识别。怎么描述呢？胖一点的、瘦一点的等等。我知道这个人是谁，但是没有办法描述。

到2000年之后的突破点，我们发现用更粗暴的方法，我们不要尝试在这个问题上找特征，把特征告诉机器，把原始的问题原始的数据交给机器。我给他两千多张照片，让他自己去找特征，最后得出答案。

2000年之后的爆发是跟这个相关的，阿尔法狗就是这么出来的，他不是靠原来的方法做的。

今天部分人工智能开始走到第三个阶段了。AlphaGo属于是第二阶段加上一点点第三阶段，给它一些答案，给它每一个局面下，人是怎么走的，让机器学。这样可以发现机器很难追上顶尖的人。到最后我告诉机器说，你走对，你赢了，或者是输了。

目前我们主要在第二个阶段，这个阶段一定要用到大数据。好处是我们不需要工程师对原有的行业有特别深度的理解，我举个例子，医生他是懂得怎么看心脏病的心电图，但是他很难把这个规则明晰的描述给工程师。

从去年开始，工程师得到很重要的体验，我不需要医生去学习他细节的技术经验，只要医生告诉我这个代表什么。工程师数据量大，就可以建立这样的模型，这跟选择人工智能的行业之间有天然的沟通鸿沟就消失掉了。这个很快就可以在人工智能里面得到突破的应用。未来的两三年里已经有成功工作经验得到了巨大的升级，今年在智能领域里面有一个很大的发现。

现在的人工智能还是有很多的局限性。核心问题是有一个前提的条件。例如在一个有背景音乐的环境里，两三个人同时说话，人很清楚可以辨别出什么声音是人说的，但机器做不到。因为人工智能是对见过声音的处理，如果两个人一起说话就不行了。

例如要很安静的环境里，如果这个环境里还有背景音乐，同时两三个人一块说话，人是很清楚能分辨出来的，但是机器做不到，这个对机器而言，如果是声音里混了声音，人工智能是对见过声音的处理，如果两个人一起说话就不行了。

如何处理呢？一种做法是用麦克风做。比如我们在汽车里面，汽车里有胎噪和风噪，把这个录下来，然后在混到这个训练里面去，不是在识别里面做，而是它见过这样的声音。还有就是去噪音。

另外比较难的是自然语言的处理。别看机器翻译现在有很大的发展，能把中文翻译成英文，英文翻译成中文，这个能翻译的很流畅。因为现在的机器人学习，不是基于理论方法。人如果流畅，机器也就可以流畅。

比如我去年6月份去了一个剑桥顶尖语言的实验室，他们在演示一个人机对话的系统，演示的非常清楚，我想吃辣的，我想吃什么样的，机器就帮你找。当我找到餐馆的时候机器问我，你需要停车位吗？我说我没有车，它就不会回复了。因为它不知道车和停车位是什么关系。所以自然语言处理这块还是非常不够的。

如果从产品上分类，我把人工智能分成这么三类：识别、判断决策和创造生成。今天做的第一个事情就是把物理世界的东西建模，比如语音识别、图像识别等，都叫识别。这是一类。还有是创造生成，比如语音的合成和图象合成，这就是第一类和第三类的结合，比如应用在安防领域。

我个人认为，第二类，也就是让机器做判断和决策，这其中蕴含着巨大的商业价值。因为它把人的劳动取代，让机器产生更高级的工作。判断和决策其实是商业的核心部分。

前面讲了一个人工智能的判断，我给大家分享一点搜狗在这个里面的思考。

首先人工智能现在的基本做法是要学习。其实对于搜索引擎公司，不管是百度还是搜狗，大部分还是在学习。

现在有了深度学习以后，我们可以想像的更多，比如在网页搜索里面，靠我们的工程师怎么是高品质的让这个机器去学，或者是图象识别这个里面如何更好的发现人脸，发现这个特征。深度学习之后需要更大的数据量才能做提升。

第二，对于To C而言，很重要的是图像和语音，应该叫做深度学习，让我们有了很大的进步。我想表达的是，搜狗从2011年开始做，80%有语音的收入，每天会产生20万条的语音数据。我们对了一下，比其他家做的语音识别的识别价值还要大，这个有清晰的应用场景。

TO B和TO C的公司是有区别，这个要有数据场景。如果没有场景，就要依靠其他家的数据场景，这是一种合作的方式。我们是用这样的技术首先为自己服务，因为我们有足够大的数据场景做支撑。

第三就是，语音识别是不是人工智能的核心，或者是人工智能未来很重要的一部分？我并不这么认为。因为语音搜索只是一个皮毛。比如用语音搜索“王老师”，和用文字去搜索，本质上区别不大。它只是把我的新闻、百度、微博推给你。

语言变语音这个事情我们也在做，但是我们考虑的是以个人为核心做周边的发展。包括两个语音的转化翻译，最后是语音的理解。这是我们To C公司里面思考的，叫自然交互和知识计算，自然交互是以语音为中心，还有是怎么建立对语音的分析和理解。

行业中会有共识，未来很重要的事情，语音在于是对话、翻译、问答，这几个都是最前沿的工作。我们为什么考虑呢？今天是词的搜索，未来是给机器提问题，让他有一个精准的答案。我们在这个工作里面也做了很多的积累，我们认为在1年以内会有突破，不代表是机器理解了，而是在很多问题里面可以直接的回答。以前是靠拼音，敲汉字进去，未来我们是希望别人问，这时机器就可以帮助人们直接回答。