猎云网注:“人机世纪大战”正酣——Google旗下 DeepMind 团队研发的围棋人工智能程序 AlphaGo大战李世石,赢得了首轮胜利。那么,IDG的技术小组怎么看这次大战?IDG对于人工智能的投资逻辑又是什么?以下是来自IDG技术小组的分享,转自IDG资本(微信号:idg_capital)。
一、关于人机大战
Q1:怎么看人工智能的进步?
“是否能保住人类最后的智力骄傲”这个问题这两天大家讨论的尤其火,其实通过人类智慧开发出来的智能机器战胜了自己,本身就是一个骄傲。相反,如果再经过多年努力,人工智能还没有实质性的突破,那对于人类科技发展来说,才是个巨大的打击。
劝大家不必太悲伤看待,因为凡是可以分步骤、定规则、可运算的,机器超越人类只是时间问题,从1952年会下井字棋、1996年“深蓝”赢了国际象棋、到2011年IBM Watson赢了Jeopardy,拜摩尔定律所赐,这种提升速度看似比人类智力进化快了许多,但实则是人类多年智力进化成果的一种转移和表现形式。就拿这次的alphaGo来说,就是在人工制定的基本规则框架下,对历史上很多很多人类下棋规律的统计,得到现在的表现的。换句话说,人工智能,关键还是在人工。还是那句话,21世纪什么最重要,人才!
Q2:人工智能还有哪些地方需要攻克?
根据维基百科的定义:“智力或智能是指生物一般性的精神能力。这个能力包括以下几点:理解、计划、解决问题,抽象思维,表达意念以及语言和学习的能力。”
理解了人工智能就是人工的表现形式,你就会明白,即使在围棋上胜出,也并不代表机器的“智力”已经全面超出人类的。近些年,人类已经在自然语言处理(听、说)和机器视觉(看)上取得了长足的进步,你也能看到越来越多的产品标榜了这些功能。但是人工智能还有很长很长的路要走,或许当未来某一天,AlphaGo在某项智力比赛中赢了人类,然后心花怒放并喜形于色的时候,这才真正的恐(hao)怖(wan)的时代。
二、关于人工智能的ABC
(业内人士可直接到文末看IDG的投资逻辑)
Q1:铺天盖地的人工智能?到底啥是人工智能?
A:现阶段产品端能见到所谓的人工智能,绝大部分指的是机器与人之间拟人的交流方式,主要就是“听得见、听得懂,看得见、看得懂”,再进一步,就是好像还能“记点事儿”。其中“听得见”和“看得见”是硬件解决的,换句话说就是话筒和摄像头的事儿,所以智能主要体现在“听得懂”(语音识别+语义理解)和“看得懂”(图像识别)。大家经常看到的“机器学习”、“神经网络”、“深度学习”,都是解决这类问题的一些具体的算法。P.S.那篇很火的知乎问答《如何看待谷歌人工智能AI 击败欧洲围棋冠军?》就提到了“神经网络”。
Q2:能解释一下你刚刚提到的各种高大上的名词吗?
A:按照便于大家理解但是并不严谨的方式来说,“机器学习”就是统计,在大量数据中统计出来一些具体的参数;“神经网络”简单说就是“分级优化”;“深度学习”是机器学习的一个分支,经常和神经网络一起出现,可以简单的理解为分级优化中每一级的内容都是从数据中统计出来。这些名词我们放在具体的例子中就比较好理解了。
Q3:给我们讲讲语音识别?
A:我们先从语音交互的第一步,“语音识别”开始。(如图所示)声音从源头发出(声源),被话筒接收,转化成电信号。这个电信号放大来看,是一些连续的波形信号。我们把这个连续的信号截成一小段一小段的,每一小段通过一种方法转换成一小串数字,这样才能进行后面的处理。
转换的方法是这里面最重要的一步了。这套规则,可以是依据经验人为制定的,也可以是通过大量数据的统计,辅助制定和优化的。后面这种方法就是我们所谓的深度学习,我们放到图像识别里面讲,更好理解一些。
转换了以后就是一个与标准库比对的过程了。
比如说,现在这个音,转换完以后是(前半音)XXX XXX XXX XXX +(后半音)YYY YYY YYY YYY,然后标准库里面A的发音对应特征值是XXY YYX XXX XXX+YYY YXX YYS YYZ,B的发音对应特征值是XXY YYY YYY YYY+YYX YYX XXX YYY,那我们就知道这个音与A更接近(75%),不太可能是B(17%)。
更高级一点,还可以根据先后顺序的关系进行匹配,比如按人类的语言习惯,A之后接B的概率更高,接K的概率很低,把这个概率算进去,准确率能进一步提升。
Q4:这个标准库怎么来?
A:比如说,你找100个人读1000次A,然后让机器把这每一个都转换成特征值,总的一起取个平均值,就出来A的标准库了。这个标准库是基于大量数据统计出来的结果(取平均值也是一种统计方法),这个过程就像是机器自己听了很多遍学会了一样,所以称为“机器学习”。除了读音,各种组合的前后关系,也都是统计出来的。
标准库的建立要尽量的复合实际场景,这样才能找出更符合使用场景的统计规律,从而达到更精准的识别。高大上的产品,比如说科大讯飞,多年的积累使得其可是支持多种方言,比如说出门问问,能支持几十个场景。说白了,这个是一个劳动量密集的体力活。大公司,钱多人多,可以做大而全;小公司,有限资金有限工作量,在有限场景下,用户感知不出来任何区别。
Q5:语音识别和语义理解是什么关系?
A:可以这么理解,所谓语音识别,是把音翻译成字和句;语义理解,则是针对句子,给予反馈。语义理解可以分为两种类型,一种是命令/数据索取式的,有明确答案的;一种是聊天式的,开放性答案的。
第一种,比如问:北京今天空气质量如何?答:空气指数356。这个回答与问题的对应关系,称之为“规则”。问同一个问题有比较多种问法,为了扩大每一个规则的适用范围,需要做一些语言结构的拆分重构,主谓宾定状补,灵活调整。
比如顺序的调换:
北京今天空气质量如何?VS 今天北京空气质量如何?
比如替换同近义词:
北京今天空气质量如何?VS 北京今天天气质量如何?
更进一步的,可以增加上下文理解。比如记住上一句话的内容,替换一个下一句话的词汇。
1层对话像这样:
问:今天上海空气质量如何?
答:空气指数135
问:北京呢?
答:空气指数356
更高级的还可以有2层对话:
问:帮我在上海订一个今晚的酒店。
答:好,在帮您预订
问:空气质量如何?
答:空气指数135
问:北京呢?
答:空气指数356
Q6:那聊天式的呢?
A:这种问题的答案通常是开放式的,比如说,问“你在干嘛呢?”。
这种回答可以是事先人为设定好的规则,常见于一般的寒暄,用户会发现重复问机器人同样的问题,每次答案可能不同,比如“我在陪你聊天啊”、“不告诉你”、“你猜”等等,但问的次数多了就开始有重复了。
这种回答也可以是从巨大的真人对话库中进行搜索得来的,返回出现概率最大的回答。比如说,可以搜索同义的问题,如“你干啥呢?”,“你弄啥咧?”,然后发现排名最多的回答是“闲着”、“你猜”、“不告诉你”,那机器就会返回这些回答。
一般情况下,这两种方式在具体的产品中都会使用。具体到小冰,主要是使用的后者,对话库来源主要是在网络上爬取的(直接调用MSN信息可能会涉及隐私问题)。考虑到返回结果较随机,对其的二次理解较为困难,这类聊天机器人通常都是不含上下文理解的。
Q7:结合前面讲的语音识别一起总结一下?
A:语音识别,就是一个积攒数据,进行统计的过程,一个劳动密集型的活儿。语义理解,不管是命令式的,还是聊天式的,除非可获取优质聊天记录资源(世界上有这样数据资源的公司就那么几家,当然我也见过有人花钱买人过来陪机器人聊天的),不然就是人工制定规则的事儿,又是一个劳动密集型的活儿。工作量越大,机器人就显得越聪明。从公司维度来说,有限场景下,小公司深耕细作,有机会比大公司更好;大公司则能背靠资源,在更多场景下有所覆盖。
再用最精炼的话总结一下——多少人工,多少智能;就算聊天,也不智能。一般的壁垒就是工作量!语音是收集素材的工作量;语义是制定规则的工作量;在有限场景范围内,小公司在产品上比大公司没有劣势。
最后再提一句,机器学习= 统计。
Q8:再说说图像识别?
A:嗯,我们先说最普通的图像识别是怎么做的。这里面我要盗用下Andrew Ng大神在UCLA的一次talk的PPT(视频截图)。
人类在看一个物体时,大部分情况其实主要是看它的轮廓(并不是颜色或其他),所以我们希望机器也这么做。拿摩托车举例。第一步,通过图像处理算法,把摩托车的轮廓提取出来(美图秀秀类图像处理工具都有这功能)。第二步,我们把一幅图分成四份,分别统计0°,45°,90°,135°四种的边的多少,然后把这些数字列在一起,我们称之为“特征值”。这个特征值里面包含很多的信息,比如说,右下角的图中一般都有轮子,轮子是圆形的,也就是说,各个方向的边,应该都存在且比例相当;而右上角的图中,一般都有把手,所以某一个方向的边会比较多。通过这些数字的内在的关系,机器进行摩托车的判别。这样的方法看起来有些简单粗暴不合理,但目前许多机器确实就是这么识别的。
Q9:这确实看起来有点….,那如果加上深度学习和神经网络呢?
用上深度学习和神经网络,那就彻底改观了。
仔细想一下,我们给别人介绍某人的长相时,很喜欢说,这个脸长得特别像谁谁谁,然后发型有点像谁谁。也就是说,人类是通过一些基本脸型的组合来认人的。数学一点来看,有几个基本脸,然后一个新的人脸,就可以被简化成一串数字,每个数字代表某一个基本脸所占比重。
那好,基本脸从哪里来?脸的基础单元是部位,部位的基础是边,形状,是各种边的组合。所以要认脸,先找基础边。这些边怎么找?之前摩托车的例子中,边是认为定义的(4种特殊角度)。人的设定,要么是偷懒,要么就是基于经验,而经验是大规模数据在人脑中统计之后得到的印象。如果换成机器自动做这个统计,那就叫机器学习。而这种由样本进行统计,一级一级的由简单的边开始,最终达到基本脸的机器学习(统计)过程,叫做深度学习。
具体来说,从左边第一张图,找到所有的边,再看第二张图,发现有些边重复的,就把这个关联变粗(用粗线表示,线越粗表示重复次数越多)。最终统计下来,有些边重复次数特别多,是重要的,就作为基础边。同样道理,我们从图中统计出来基础边的重要组合,就是基础部位,再深一层,就是基本脸。具体的运算过程会比较复杂,对应一种由节点(边、部位、脸)和节点间连线(粗细表示重要程度)的计算架构和相应算法,这个叫做神经网络。
Q10:总结一下图像识别吧?
A:图像和语音识别,核心都是特征值转换算法,即基础单元&数字表示。深度学习就是指基础单元库源于数据统计而非人为设定(合理,可解释);神经网络指的是一级一级分级优化,权重连接(最简化基础单元库),这两个通常一起出现,使得结果既合理又简单。
大型神经网络价格较贵,每一个节点都是通过高性能GPU或者工作站进行实现,几百万美金的投入也就能购买几千个节点,所以这是大公司的游戏。小公司通常采用多个小神经网络,虽然识别准确率会受到一定的影响,但是在不较真的应用场景,比如说家用的人脸识别,中小规模公司用的门禁识别等等,已经可以足够好到用户分辨不出来了。
Q11:能否整体总结一下人工智能?
A:人工智能,首先是能听懂看懂(识别)。这一是收集数据(工作量),二是精进算法(可人工凭经验,或者大数据做统计)。对小公司来说,主要是工作量。
再进一步是能反馈(对话),除了天生有数据的以外,主要就是规则制定(工作量)和数据收集(工作量)。在比拼工作量的事情上,产品设计往往更为重要,该做什么不该做什么主要应该做什么,是小公司集中有限资源于一点突围的法宝。
再高一层,是有记忆。来过一次就记住你了,下次来直接就能叫出你名字;比如说你回家晚了,会主动的问候,这些都是产品设计的事情。
三、人工智能的投资逻辑
我们认为To C的人工智能,由于应用场景要求不十分严苛,且人才储备已经足够充足,已经由技术活更多的向产品活儿转变。所以在这个层面上说,我们愿意投资具有强大技术实力,但同时更是一个具有超强产品思维的团队,最鲜明的例子,就是Rokid。如果你有机会尝试,想必你会被用户体验惊艳到。
Rokid产品
至于To B的人工智能,图像识别在苛求精准度的应用场景下,还是非常需要高大上的技术团队,从这个层面上讲,我们投资了Sensetime;语义理解需要在特定场景下的深耕细作,需要特定场景下的大量数据,在这个层面上,我们倾向于专一行业深耕细作,所以投资了智齿科技。
至于标题中的问题,我们想说的是:一、VC的投资核心在于生产产品和提供服务的公司,能真正被大家所用的解决实际痛点问题的产品和服务,如果再有一个DeepMind一样的高技术公司摆在我们的面前,我们投资的逻辑,不是能不能下棋,而是它未来能提供更完美的落地的产品和服务;二、AI现有阶段,在语音语义和图像识别上,已经从技术活儿变成产品活儿,进而是我们的投资热点。