英特尔宋继强：20年后回看今天，人工智能的发展还属于早期

2016-12-17

活动

人工智能能发展到当前的高度，与数据密切相关。

【猎云网（微信号：ilieyun）深圳】12月17日报道（文/郑桂兰）

今日， 2016中国人工智能产业大会暨第六届吴文俊人工智能科学技术奖颁奖盛典在深圳举行，猎云网（微信号：ilieyun）作为媒体支持出席了本次活动。大会以“AI新时代•产业新动能”为主题，会上英特尔中国研究院院长宋继强发表名为“英特尔人工智能赋予明日精彩体验”的主题报告，从英特尔布局人工智能产业的大背景，详解人工智能时代面临的新挑战和发展机遇。

宋继强表示，人工智能能发展到当前的高度，与数据是密切相关的。预计到2020年将有500亿台智能设备接入互联网，大量的智能设备产生的数据使得我们能够去训练人工智能的算法，产生更大的增值价值。而如何处理这些数据，英特尔认为关键是做好端到端的集成，即如何更好地利用云端和终端的协同计算能力，提供端到端的解决方案。

宋继强认为人工智能虽然已经发展了60年，但仍处于早期阶段，从以下三点可以看出：第一，人工智能的应用是否已经普及到各行各业，而不仅仅是在一小块产业里去提供价值，这是技术应用的广泛度。第二，人工智能是否已经有标准，不管是国家标准还是行业标准，是否已经有标准开始在制定和落地。第三，人工智能是否已经有专用的硬件开始在市面上使用，这也是比较重要的。

“虽然人工智能还处于婴儿期，但是人工智能市场的参与者还是有很大机会，未来英特尔将在英特尔会在智能制造、智慧零售、无人驾驶、精准医疗、智慧城市、互联网金融、体育等方面为用户提供各种支持。“宋继强说到。

以下宋继强的演讲实录，猎云网有所删减：

抓好端到端的集成，驾驭数据的洪流

人工智能突然变到一个非常高的高度，实际上跟数据是有很大的关系。目前来讲，我们处在一个数据的洪流中，到2020年会有500亿的智能设备连入互联网，这其中包括我们个人使用，也包括我们日常生活的周遭，环境中、车里面，医院里，交通工具，以及所需要的产品工厂里面，他们都在大量使用智能设备，这些智能设备会产生各种各样的数据，这些数据促使了我们有更好的数据去训练人工智能的算法，同时这些数据也可以让我们通过训练好的人工智能算法，产生更大的增值价值，这也是为什么人工智能吸引了这么多的科研人员和企业，大家一起把资源贡献出来。如何把握好人工智能的应用，跟怎么能够驾驭这个数据的洪流非常有关系。我们认为，这里面的关键是怎么搞好端到端的集成，因为我们知道，那么多不同种类的设备，他们个头有的很小，有的很大，他们采集来的数据种类很多，通常不是传统的结构化数据，是非结构化的数据，你怎么样能够很好的利用云端和终端协同计算能力和他们之间无缝并且高速的传输能力、存储能力，构建端到端的解决方案，构成一个良性循环。也就是我采购了数据，做了处理，我送到了云端以后，在云端继续分析它，去提取出中间有用的价值，并且能够有一些是可以增值，让终端更智能的再下发到终端，这样一个反复的循环，是一个最优的途径，这是我们深刻相信的未来的场景。

20年后回看今朝，人工智能还是早期阶段

目前我们知道人工智能已经发展了60年，现在很火，但是20年后再来看，历史的发展长河里面，仍然处在一个早期阶段。我们怎么看一个技术是否已经达到了成熟阶段？至少有三个点可以看。第一，看它的应用是否已经普及到各行各业，还是你只在一小块产业里去提供价值，所以一个是应用的广泛度。第二，是否已经有标准，不管是国家标准还是行业标准，是否已经有标准开始在制定和落地。第三，是否已经有专用的硬件开始在市面上使用，而且第三点也是比较重要的，大家知道做硬件，第一个花钱，第二个周期长，产业没起来之前，硬件厂商是不会铺进去的。ROBERT是我们的创始人之一，也是硅谷之父，他很早就研究脑科学，那时候的计算机技术都用来建模脑，看看人脑是怎么工作的，反过来，怎么利用我们在脑科学上得到的一些认知和新奇的想法，去促进计算机科学或者计算架构的发展，为这个领域提供更好的计算能力，这也是我们新的考虑。

通常我们在做硬件的时候，必须要走这样的过程，拿深度学习做一个例子，比较复杂，我们训练出一个深度学习模型，是一个很广很深的模型，这样的一个模型，直接变成一个硬件，是不太可能的，而且也是低效的，高效的办法是什么？我去分析这个模型，我必须找到懂这个模型的人，懂我为什么产生这种模型，然后把这个模型通过硬件的描述给描述出来，然后我产生硬件的抽象，抽象出里面的数据流，数据是怎么流的，中间的流水线上有哪些重要处理模块，他们各自的时间、带宽要求是怎么样，有哪些计算的语言，就是里面的计算内核是非常重要的，而且是否大规模运行和反复运用的机会。在这样的基础上，在怎么做硬件芯片有很好的认识，同时我们看哪些放在硬件里面固化，哪些让他去灵活使用，有这样的认知以后，我们才到了第三步，可以产生出一个针对这种工作，这种工作负载优化的硬件，这个硬件也不是很快达到要求，一个很有用的例子，大家都很熟悉的就是，我们做视频加速芯片，你会看到从早期的标准以后，一代一代过来，每一代都有专用芯片，都是有专用的认知，但这个过程是一样的，如果这个产业真的发展到了一个普及，到各行各业都要去使用，那这个行业就需要专业模型，而不是在通用的芯片上做模拟，这还属于学科界的研究范畴。

现在看到做人工智能的应用，或者说部署人工智能的计算在云端还是很少，通过英特尔的分析，现在是云端提供绝大部分的计算资源的，目前这部分的份额还是在10%，还是比较少，但是这一块是非常大飞速发展的，但是到2020年，AI计算量将会增长12倍，要节省电力、体积和资源，这都是重要的，所以我们要不断推动技术创新，我们不能停留在今天这个阶段，后面有更多的优化方案等着我们。

从我们做人工智能的分析来看，因为英特尔不是人工智能专家，但是我们跟很多学界一起合作，也有一个对人工智能分类的认识，人工智能从在学术界开始，定义学科来讲，它的目标是为了让机器具备人的智能处理的能力，刚好跟徐扬生院士讲的第一条非常相似，哪些能力很重要？三大能力，感知能力、推理能力和行动能力，这三大能力是决定了你这个机器人能不能根据外界环境，做一个很好很智能的决策，同时把他反馈到外部世界，而且比较稳定。另外还有一个徐院士没有讲到的，就是适应性，而不是这个设计好了就只有当初的能力，而是要有适应不停变化的环境，要有持续的学习，自主的学习，不断增强的能力，这里横向化的内条非常重要，记忆是目前大家还想得比较少的，但是在一个真正的自主系统里，能够让人去满意使用它的话非常重要，它实际上是让你能够把感知推理行动串起来，去适应新的环境。下面这个就是具体的方法工具，这么多都是专家学者，就不需要多讲。首先要有大量的数据，才能把知识和规则提取出来，才能为我们所用，处理新的数据。第二类是知识驱动，不在乎你有多大的数据，可能用很少的数据，但是那些数据非常关键和精准，你只要从小数据里，就能推出一个完备的系统，能够做事。所以这两块，是应该齐头并进的，不能说哪一块优于另外一块，而是应该互相结合的去做。

深度学习让更多领域得到大突破

深度学习目前来讲非常火，他火的原因是什么？因为最近这几年，我们首先有大量的数据，像ImageNet，提供了大量的数据，计算的能力也大幅提升，我们知道摩尔定律在过去这些年给我们提升更多的计算能力，存储能力也大幅度提升。过去二十年来，我们的计算能力提升了上百倍都不止，我是90年代读大学的，用的是286，386，现在二十年后，是百倍级的提升，机器你的主屏强，内存小，性能还是不够。1995年的时候，一个GB的存储一千美金，现在0.03美金，这都是通过过去的摩尔定律推动到现在，才有这个爆发点。这个爆发导致我们可以通过深度学习，在某些领域取得比较大的突破，有些领域比如说做视觉识别，特定的人脸识别，已经可以超过人，他犯的错误比人的少，因为人是生物，人会疲劳，人会走神，机器不会。所以目前在语音的识别和视觉的物体识别两个领域有非常大的突破。我们也看到了这个突破，通过深度学习可以通过增加它的训练数据增加性能，意味着我要增加训练能力，来支持这些训练，而不是把数据增加一百倍，把训练时间增加一百倍，我增加这些处理数量，是希望大幅度缩减我的训练时间，但是光增加处理数量行吗？不行，你会遇到一个平台，因为处理器与处理器之间需要有通讯，这些通讯有时候是数据通讯，有时候是控制通讯，当你通讯的瓶颈达到的时候，你再增加处理器，你也缩短不了。所以这就是目前来讲，为什么你在使用某些架构的时候，你再增加处理器，也不见得训练时间减少了，而这时候需要有更高效的技术，能够同时增加你计算的密度，同时也能够大幅度增加你的通讯带宽，这样才能达到线性的增长。

Lake crest是今年刚刚发布，是今年11月份刚刚对全球发布的英特尔的代号，这个代号是专门为深度学习定制的一款芯片，这款芯片有几大特色。第一，它里面的运算设计是为了深度学习量身定制，同时它的计算密度也非常高，这个待会儿也会讲到。第二，它把数据访问，刚才我们讲到的多节点之间的数据访问的瓶颈，给优化掉了，并且能够支持高速的内存，这个高速内存是使用HBM2的内存，直接分装在一个芯片的里边，所以这样的效果是非常的好。这样会给我们带来什么好处？我们知道，在做深度学习训练的时候，即使你的模型，我们知道人工智能做神经网络的时候，它的每一个节点里面既有计算也有数据，而且数据有的还是浮点的，希望是每个计算节点有自己的内存接口，这个要求还不是那么容易满足，现在我们可以通过这个硬件技术支持到这一点，你有了这个支持，意味着我首先设计的模型，我在做很多算法训练的时候，我的尺寸大小不受太大的限制。因为很多人在初始设计的时候不考虑功耗，不考虑代价成本，去做出来，但是这时候是需要允许你去做这么大模型的平台的，同时IO增加，你也可以知道是多少增加，所以我们可以很好支持新模型的探索，这是怎么实现的呢？

这是它的一张架构图，中间那些绿色的实际上是计算处理单元，提供了我们称为基于张量架构的单元，我们做很多块运算，张量计算架构可以很快速直接进行快运算，比用处理器快很多，而且我们看到这里面有个Flexpoint技术，以前有定点数，有浮点数，但这都是固定的告诉你，你用了多少，Flexpoint是介于这两者之间，是可以动态变化的，也就是你在做的初期，你不需要那么高的精度，你可以用广的精度做，运算到后期，你需要越来越多进度的时候，再增长为它提供很好计算的密度。同时还有一个好处，这四个黄块，是直接就在一个芯片里面分装在一起，有各自独立的IO接口，而且距离主芯片非常近。第三个好处，我设计了一款芯片之后，其实总值是有一个上限，怎么样去突破这个上限，你是否能容易构成节点。这上面的蓝块ICL，是私有定制芯片间的通讯链路，这个链路的速度非常快，带宽也很高，而且它的12个意味着什么？一个芯片可以跟12个芯片连接，可以构成一个12维的超网络支持你的运算，现在大家可能还用不到这么多。这就是它有一定灵活性的深度学习计算的架构。

这是我们收购了很多公司带来的新技术，我们之前的技术仍然存在，包括至强融核的技术，去做通用计算的加速。Arria FPGA可以做在功耗和性能优化的情况下做加速，这也是非常好的，这在2016年就有。2017年，这些继续往前推进，同时我们会增加在特定优化的时候，增加Lake Crest架构，我们会把这些人工智能的硬件和方案统称为Nervana平台产品组合，这是我们的商标，而不只是收购过来的一款芯片。

有了硬件，我们还要注意，不能放松对算法的研究，因为硬件很好，但是你可以用很烂的算法把它用得很差。所以在这里，英特尔内部也和外面的学术界一起合作，在这几个前沿的领域在快速推进深度学习领域的算法和研究，这里面包括我们怎么更快的训练，怎么更好的利用少一些的数据和少一些的监督，去达到训练的特性，并且我怎么把记忆元素加进去，记忆其实是通过对历史数据的一些分析和挖掘，找出来的开展的模式，这些模式是利用来大幅提高对训练的指导。第二，怎么把大模型稀疏化和修剪，因为现在模型和参数非常多，千万级别，上亿级别的都有，这么多里面，有用的没有那么多，大量的是为零的，为零你还为他存储和计算不是浪费资源吗？所以怎么做好大量模型的稀疏化，重要的留下，让我的硬件利用效率最高。另外就是我们看怎么支持更大规模的计算，包括在云端我们有更多的批量，可以同时做运算，在每个节点可以用更高阶的方法做处理。

通过我们这些技术，我们可以大幅增加这些模型的并行化计算能力，到了2020年，我们要在英特尔这个软硬件方案集成下，把训练时间相对于今天这个节点提高到100倍。这是我们的目标。刚才讲的是云端，云端你训练得非常好，这个模型有了，但是我们在使用的时候，大家接触到的是终端的设备，我们怎么在终端设备上去部署？去使用这些能力呢？这个非常重要，如果我云端的东西做得非常好，我任何一个数据都需要终端设备采集送到云端，再回来，只有对我们的网络有非常大的依赖，对实时交互是不可以接受的。我们另外一个杀手锏就是在终端这一侧也有很好的硬件方案，我们最近收购了一家Movidius的公司，它的特点是我有一定定制度又保留了一定的可编程能力的硬件芯片解决方案，这个就是低功耗版本的解决方案，他们的平台是比信用卡还小的板子，他们是可以把开源的这两个比较主流的训练出来的模型，通过他们的Fathom工具转化成嵌入式的深度学习模型，放在他们的硬件上很好的运行，硬件里面的东西也很多，有两个亮点。第一，上面这些橘黄色的块，是一些做好的硬件电路支持某些功能，这是不变的。另外可以编程是底下的SHAVE，它是一个流式的处理器，而且是混合架构，是很适合你去处理一些需要变的工作，而且更好的是因为它部署在前端，前端有时候工作量大，有时候小，这12个单元可以各自它上不上电，现在只用6个的话，可以把另6个关掉，不费电。

终端嵌入AI的优势，有更高能效，更低宽带需求，同时，延迟更少了，对存储开销也少了，容错连续性也好了。

刚才讲的主要是深度学习，推理这一块也很重要，而且是未来越来越依赖它，降低对大数据的依赖，因为在现实生活中不可能各个应用都有大数据，我还是需要一些人的支持，逐步去个性化收集来的记忆，一些规则，去做对人工智能应用的增强。

我们也有一个Saffron的方案，这在美国还是比较有名气，它是一个自然智能平台，主要的特色，这个公司的主要能力，英特尔收购他之前的能力，是给波音这种大企业提供一些零件维修库，你这个零件坏了，还有什么零件可能很快就要坏了，你可能每年要定时间去检测几个东西，是预防性的提供很多知识支持，他们有一个自己独特的，能够去记录很多事件的数，这个数据库不光可以去很好记录这些事件，分门别类做表述，同时在上面也有统计量，这样可以利用机器学习、数据挖掘的办法，提取出你称之为记忆的东西，怎么找出它的相似性和关联性，相似性可以做一些自动的分类，关联性可以用来去看，什么是一些趋势、规则、模式也好，利用这些趋势，我们就可以做预测了，我看到了前面这个事情发生，我就知道后面这个事情在未来的什么时间点很有可能发生，如果发生了，那就是预测成功，如果没发生，这又做成一次异常。比如说你吃药的这个动作，你这时候吃药是对的，如果你没吃，就是一个异常，就要提醒你。所以它实际上是在提供基于记忆的一整套方法。

AI市场仍处于婴儿期，想投身时尤未晚

刚才讲的都是一些技术，对于市场来讲，AI的整个市场仍然处于婴儿期，想投身于利用AI做后面的各种产业的公司和学者来讲，时尤未晚，还有很多事情可以做。目前从英特尔看来，我们觉得会重度利用AI的行业零用有这么几个，一个是智能制造，会对AI有很大的需求，它的数据量产生得太多了，第二是智能零售，这里面有人消费的记录，也有商品之间关联被购买的信息，有很多的数据。无人驾驶也是非常大的一块，英特尔把无人驾驶也是提升到很高的高度，我们认为无人驾驶是几年后一个最大的智能平台，这上面可以承载很多种不同业务，但是首要是要把车做出来，让它安全可以用，这里面也会用到很多人工智能技术。同时精准医疗、智慧城市、互联网金融、体育这一块，都是非常多拥有人工智能的。

举两个例子，一个是零售，我们知道零售业是端到端的产业，从生产、仓储到中间你去发布一些广告做推销、推广，去看用户体验的反馈到把货物最后送到客户手里，这是一个很长的链条，而这整个链条里都有人工智能可以去做加速的地方，在今年的双十一我们和京东联合一起在几个方面做了一些试验，发现这个效果还是很好，这里还没有用到之前说的至强融核的新东西，就是在英特尔至强处理器上做优化，一方面是在非法检测图片应用性能提升了4倍，图片版权保护应用也提升了2倍，这是在智能零售这个行业有很好的应用，而这只是冰山一角而已。在另外一个领域，这是全球性的领域，而且英特尔发现在中国区有很好的市场可以做。在医疗行业其实也是数据非常多的行业，为什么说中国区有很好的机会呢？华大基因有很好的基因测序工作，而且这个工作目前来讲在全世界是领先的，甚至在很多地方，像美国做得更好，因为美国的监管还是很多的。英特尔的目标是把精准医疗这件事情大幅缩短使用周期和成本，现在我们知道，如果你有了一个类似于癌症的，要去给你定制一个个性化医疗方案，找到你需要的药物，不光要花不少的钱做基因测序，至少1500美金，同时你要等一星期，这个结果才能出得来，我们的目标是到2020年，和这些行业伙伴一起，把这个时间缩短到一天，价格也大幅下降，这一天里面，你做了基因测序，做了你的分析，把你的其他医学影像处理业分析出来，根据这些数据做个性化诊疗，给你一个个性化的医疗方案，一天24小时搞定，这个对于大众来讲有非常重要的意义，这也需要很多的AI帮助去做。

目前英特尔推出了Nervana人工智能学院，我们是和全球领先的行业，行业的企业领袖和学术界的重要教授们一起合作，这里面除了硬件方面的支持之外，还会给大家展示怎么样做解决方案，这个解决方案一定是端到端平台支持的，不能只给他提供一个模块，因为这个模块用户很多不知道嵌入到系统里怎么弄，怎么弄做到最好，所以端到端的方案是非常有用的。同时，你要对这个算法有一个广泛的支持，你要能够适应新算法，因为我们知道，深度学习也好，人工智能也好，由于大量的精英人脑进来，算法更迭速度是很快的，通常一个星期就有一些新算法出来，你怎么支持到这些广泛算法，同时你要想到这是软硬件系统的事，不是一个硬件公司自己推动，要结合产业界很多做软件的思路，也要把它提供出来，跨行业合作。

为了能够更广泛支持行业里的各种开源的深度学习框架，我们通过Nervana做跟硬件无关的适配，可以利用它的图编译器。深度学习SDK是可以帮助到几个层面的人，一个是你在训练的时候，数据科学家可以利用SDK去分析哪些数据比较有用，怎么产生一个好的模型，同时我们可以支持到，它不是深度学习的专家，他怎么把好的模型整合到方案去，并且最终我们支持在部署里很方便测试，去看部署以后的效果，并且形成一个好的迭代。在这几个方面都是我们非常想去整个生态一起合作供应的事情，对英特尔来讲，我们主要提供的是两层东西，最底层就是我们的硬件支持，我们会长期提供各种层级的硬件支持，端到端的，而且不只是计算芯片，包括了存储，也包括了网络方面的能力。第二是我们会提供一个中间层，保证现在开源的一些东西，在我们的底下的平台上可以很容易使用起来，不会增加现在开发人员、研究人员重新学习平台的负担，有这样的支持以后，我们相信再往上去做几个比较主流的行业应用的时候，大家会更得心应手，也会提高整个人工智能去推动行业应用的普及率和速度。