这次放心了，2026年买车国补继续，最高2万

化解端到端“黑盒”，奔驰和AI建立信任的三部曲

立即打开APP

无论输赢，IDG会投资围棋机器人吗？

2016-03-10

人类自己研究出来的机器是否已经能超越人类？人类的未来将走向何方？

猎云网注：“人机世纪大战”正酣——Google旗下 DeepMind 团队研发的围棋人工智能程序 AlphaGo大战李世石，赢得了首轮胜利。那么，IDG的技术小组怎么看这次大战？IDG对于人工智能的投资逻辑又是什么？以下是来自IDG技术小组的分享，转自IDG资本（微信号：idg_capital）。

一、关于人机大战

Q1：怎么看人工智能的进步？

“是否能保住人类最后的智力骄傲”这个问题这两天大家讨论的尤其火，其实通过人类智慧开发出来的智能机器战胜了自己，本身就是一个骄傲。相反，如果再经过多年努力，人工智能还没有实质性的突破，那对于人类科技发展来说，才是个巨大的打击。

劝大家不必太悲伤看待，因为凡是可以分步骤、定规则、可运算的，机器超越人类只是时间问题，从1952年会下井字棋、1996年“深蓝”赢了国际象棋、到2011年IBM Watson赢了Jeopardy，拜摩尔定律所赐，这种提升速度看似比人类智力进化快了许多，但实则是人类多年智力进化成果的一种转移和表现形式。就拿这次的alphaGo来说，就是在人工制定的基本规则框架下，对历史上很多很多人类下棋规律的统计，得到现在的表现的。换句话说，人工智能，关键还是在人工。还是那句话，21世纪什么最重要，人才！

Q2：人工智能还有哪些地方需要攻克？

根据维基百科的定义：“智力或智能是指生物一般性的精神能力。这个能力包括以下几点：理解、计划、解决问题，抽象思维，表达意念以及语言和学习的能力。”

理解了人工智能就是人工的表现形式，你就会明白，即使在围棋上胜出，也并不代表机器的“智力”已经全面超出人类的。近些年，人类已经在自然语言处理（听、说）和机器视觉（看）上取得了长足的进步，你也能看到越来越多的产品标榜了这些功能。但是人工智能还有很长很长的路要走，或许当未来某一天，AlphaGo在某项智力比赛中赢了人类，然后心花怒放并喜形于色的时候，这才真正的恐(hao)怖(wan)的时代。

640.webp (2)

二、关于人工智能的ABC

（业内人士可直接到文末看IDG的投资逻辑）

Q1：铺天盖地的人工智能？到底啥是人工智能？

A：现阶段产品端能见到所谓的人工智能，绝大部分指的是机器与人之间拟人的交流方式，主要就是“听得见、听得懂，看得见、看得懂”，再进一步，就是好像还能“记点事儿”。其中“听得见”和“看得见”是硬件解决的，换句话说就是话筒和摄像头的事儿，所以智能主要体现在“听得懂”（语音识别+语义理解）和“看得懂”（图像识别）。大家经常看到的“机器学习”、“神经网络”、“深度学习”，都是解决这类问题的一些具体的算法。P.S.那篇很火的知乎问答《如何看待谷歌人工智能AI 击败欧洲围棋冠军？》就提到了“神经网络”。

Q2：能解释一下你刚刚提到的各种高大上的名词吗？

A：按照便于大家理解但是并不严谨的方式来说，“机器学习”就是统计，在大量数据中统计出来一些具体的参数；“神经网络”简单说就是“分级优化”；“深度学习”是机器学习的一个分支，经常和神经网络一起出现，可以简单的理解为分级优化中每一级的内容都是从数据中统计出来。这些名词我们放在具体的例子中就比较好理解了。

Q3：给我们讲讲语音识别？

A：我们先从语音交互的第一步，“语音识别”开始。（如图所示）声音从源头发出（声源），被话筒接收，转化成电信号。这个电信号放大来看，是一些连续的波形信号。我们把这个连续的信号截成一小段一小段的，每一小段通过一种方法转换成一小串数字，这样才能进行后面的处理。

640.webp (3)

转换的方法是这里面最重要的一步了。这套规则，可以是依据经验人为制定的，也可以是通过大量数据的统计，辅助制定和优化的。后面这种方法就是我们所谓的深度学习，我们放到图像识别里面讲，更好理解一些。

转换了以后就是一个与标准库比对的过程了。

比如说，现在这个音，转换完以后是（前半音）XXX XXX XXX XXX +（后半音）YYY YYY YYY YYY，然后标准库里面A的发音对应特征值是XXY YYX XXX XXX+YYY YXX YYS YYZ，B的发音对应特征值是XXY YYY YYY YYY+YYX YYX XXX YYY，那我们就知道这个音与A更接近（75%），不太可能是B（17%）。

更高级一点，还可以根据先后顺序的关系进行匹配，比如按人类的语言习惯，A之后接B的概率更高，接K的概率很低，把这个概率算进去，准确率能进一步提升。

Q4：这个标准库怎么来？

A：比如说，你找100个人读1000次A，然后让机器把这每一个都转换成特征值，总的一起取个平均值，就出来A的标准库了。这个标准库是基于大量数据统计出来的结果（取平均值也是一种统计方法），这个过程就像是机器自己听了很多遍学会了一样，所以称为“机器学习”。除了读音，各种组合的前后关系，也都是统计出来的。

标准库的建立要尽量的复合实际场景，这样才能找出更符合使用场景的统计规律，从而达到更精准的识别。高大上的产品，比如说科大讯飞，多年的积累使得其可是支持多种方言，比如说出门问问，能支持几十个场景。说白了，这个是一个劳动量密集的体力活。大公司，钱多人多，可以做大而全；小公司，有限资金有限工作量，在有限场景下，用户感知不出来任何区别。

Q5：语音识别和语义理解是什么关系？

A：可以这么理解，所谓语音识别，是把音翻译成字和句；语义理解，则是针对句子，给予反馈。语义理解可以分为两种类型，一种是命令/数据索取式的，有明确答案的；一种是聊天式的，开放性答案的。

第一种，比如问：北京今天空气质量如何？答：空气指数356。这个回答与问题的对应关系，称之为“规则”。问同一个问题有比较多种问法，为了扩大每一个规则的适用范围，需要做一些语言结构的拆分重构，主谓宾定状补，灵活调整。

比如顺序的调换：

北京今天空气质量如何？VS 今天北京空气质量如何？

比如替换同近义词：

北京今天空气质量如何？VS 北京今天天气质量如何？

更进一步的，可以增加上下文理解。比如记住上一句话的内容，替换一个下一句话的词汇。

1层对话像这样：

问：今天上海空气质量如何？

答：空气指数135

问：北京呢？

答：空气指数356

更高级的还可以有2层对话：

问：帮我在上海订一个今晚的酒店。

答：好，在帮您预订

问：空气质量如何？

答：空气指数135

问：北京呢？

答：空气指数356

Q6：那聊天式的呢？

A：这种问题的答案通常是开放式的，比如说，问“你在干嘛呢？”。

这种回答可以是事先人为设定好的规则，常见于一般的寒暄，用户会发现重复问机器人同样的问题，每次答案可能不同，比如“我在陪你聊天啊”、“不告诉你”、“你猜”等等，但问的次数多了就开始有重复了。

这种回答也可以是从巨大的真人对话库中进行搜索得来的，返回出现概率最大的回答。比如说，可以搜索同义的问题，如“你干啥呢？”，“你弄啥咧？”，然后发现排名最多的回答是“闲着”、“你猜”、“不告诉你”，那机器就会返回这些回答。

一般情况下，这两种方式在具体的产品中都会使用。具体到小冰，主要是使用的后者，对话库来源主要是在网络上爬取的（直接调用MSN信息可能会涉及隐私问题）。考虑到返回结果较随机，对其的二次理解较为困难，这类聊天机器人通常都是不含上下文理解的。

Q7：结合前面讲的语音识别一起总结一下？

A：语音识别，就是一个积攒数据，进行统计的过程，一个劳动密集型的活儿。语义理解，不管是命令式的，还是聊天式的，除非可获取优质聊天记录资源（世界上有这样数据资源的公司就那么几家，当然我也见过有人花钱买人过来陪机器人聊天的），不然就是人工制定规则的事儿，又是一个劳动密集型的活儿。工作量越大，机器人就显得越聪明。从公司维度来说，有限场景下，小公司深耕细作，有机会比大公司更好；大公司则能背靠资源，在更多场景下有所覆盖。

再用最精炼的话总结一下——多少人工，多少智能；就算聊天，也不智能。一般的壁垒就是工作量！语音是收集素材的工作量；语义是制定规则的工作量；在有限场景范围内，小公司在产品上比大公司没有劣势。

最后再提一句，机器学习= 统计。

Q8：再说说图像识别？

A：嗯，我们先说最普通的图像识别是怎么做的。这里面我要盗用下Andrew Ng大神在UCLA的一次talk的PPT（视频截图）。

640.webp (4)

人类在看一个物体时，大部分情况其实主要是看它的轮廓（并不是颜色或其他），所以我们希望机器也这么做。拿摩托车举例。第一步，通过图像处理算法，把摩托车的轮廓提取出来（美图秀秀类图像处理工具都有这功能）。第二步，我们把一幅图分成四份，分别统计0°，45°，90°，135°四种的边的多少，然后把这些数字列在一起，我们称之为“特征值”。这个特征值里面包含很多的信息，比如说，右下角的图中一般都有轮子，轮子是圆形的，也就是说，各个方向的边，应该都存在且比例相当；而右上角的图中，一般都有把手，所以某一个方向的边会比较多。通过这些数字的内在的关系，机器进行摩托车的判别。这样的方法看起来有些简单粗暴不合理，但目前许多机器确实就是这么识别的。

Q9：这确实看起来有点….，那如果加上深度学习和神经网络呢？

用上深度学习和神经网络，那就彻底改观了。

仔细想一下，我们给别人介绍某人的长相时，很喜欢说，这个脸长得特别像谁谁谁，然后发型有点像谁谁。也就是说，人类是通过一些基本脸型的组合来认人的。数学一点来看，有几个基本脸，然后一个新的人脸，就可以被简化成一串数字，每个数字代表某一个基本脸所占比重。

640.webp (1)

那好，基本脸从哪里来？脸的基础单元是部位，部位的基础是边，形状，是各种边的组合。所以要认脸，先找基础边。这些边怎么找？之前摩托车的例子中，边是认为定义的（4种特殊角度）。人的设定，要么是偷懒，要么就是基于经验，而经验是大规模数据在人脑中统计之后得到的印象。如果换成机器自动做这个统计，那就叫机器学习。而这种由样本进行统计，一级一级的由简单的边开始，最终达到基本脸的机器学习（统计）过程，叫做深度学习。

具体来说，从左边第一张图，找到所有的边，再看第二张图，发现有些边重复的，就把这个关联变粗（用粗线表示，线越粗表示重复次数越多）。最终统计下来，有些边重复次数特别多，是重要的，就作为基础边。同样道理，我们从图中统计出来基础边的重要组合，就是基础部位，再深一层，就是基本脸。具体的运算过程会比较复杂，对应一种由节点（边、部位、脸）和节点间连线（粗细表示重要程度）的计算架构和相应算法，这个叫做神经网络。

Q10：总结一下图像识别吧？

A：图像和语音识别，核心都是特征值转换算法，即基础单元&数字表示。深度学习就是指基础单元库源于数据统计而非人为设定（合理，可解释）；神经网络指的是一级一级分级优化，权重连接（最简化基础单元库），这两个通常一起出现，使得结果既合理又简单。

大型神经网络价格较贵，每一个节点都是通过高性能GPU或者工作站进行实现，几百万美金的投入也就能购买几千个节点，所以这是大公司的游戏。小公司通常采用多个小神经网络，虽然识别准确率会受到一定的影响，但是在不较真的应用场景，比如说家用的人脸识别，中小规模公司用的门禁识别等等，已经可以足够好到用户分辨不出来了。

Q11：能否整体总结一下人工智能？

A：人工智能，首先是能听懂看懂（识别）。这一是收集数据（工作量），二是精进算法（可人工凭经验，或者大数据做统计）。对小公司来说，主要是工作量。

再进一步是能反馈（对话），除了天生有数据的以外，主要就是规则制定（工作量）和数据收集（工作量）。在比拼工作量的事情上，产品设计往往更为重要，该做什么不该做什么主要应该做什么，是小公司集中有限资源于一点突围的法宝。

再高一层，是有记忆。来过一次就记住你了，下次来直接就能叫出你名字；比如说你回家晚了，会主动的问候，这些都是产品设计的事情。

三、人工智能的投资逻辑

我们认为To C的人工智能，由于应用场景要求不十分严苛，且人才储备已经足够充足，已经由技术活更多的向产品活儿转变。所以在这个层面上说，我们愿意投资具有强大技术实力，但同时更是一个具有超强产品思维的团队，最鲜明的例子，就是Rokid。如果你有机会尝试，想必你会被用户体验惊艳到。

Rokid产品

至于To B的人工智能，图像识别在苛求精准度的应用场景下，还是非常需要高大上的技术团队，从这个层面上讲，我们投资了Sensetime；语义理解需要在特定场景下的深耕细作，需要特定场景下的大量数据，在这个层面上，我们倾向于专一行业深耕细作，所以投资了智齿科技。

至于标题中的问题，我们想说的是：一、VC的投资核心在于生产产品和提供服务的公司，能真正被大家所用的解决实际痛点问题的产品和服务，如果再有一个DeepMind一样的高技术公司摆在我们的面前，我们投资的逻辑，不是能不能下棋，而是它未来能提供更完美的落地的产品和服务；二、AI现有阶段，在语音语义和图像识别上，已经从技术活儿变成产品活儿，进而是我们的投资热点。

打开猎云网APP，查看原文

猎云网APP阅读全文

体验更加

微信扫码关注猎云网

猎云网原创文章未经授权转载必究，如需转载请联系官方微信号进行授权；
转载时须在文章头部明确注明出处、保留官方微信、作者和原文链接，如：转自猎云网(微信号: lieyunjingxuan )字样；
猎云网报道中所涉及的融资金额均由创业公司提供，仅供参考，猎云网不对真实性背书。
联系猎云，请加微信号：jinjilei