“败家”的福特：巨亏566亿后，却上调全员奖金30%

本田怎么了？利润暴跌60%，电动化开始急刹车

立即打开APP

1500万个标记图像、2万多个分类！如今的AI图像分类器还是“睁眼瞎”

2019-09-18

转载

ImageNet Roulette重复了Google Photos“误读照片”的旧路，将一位坐在开放式的办公位上满脸“无辜”的小伙子，识别为叼着大烟斗的烟民，而且此时此刻还在一架飞机上。

猎云网注：ImageNet Roulette重复了Google Photos“误读照片”的旧路，算法偏见只是一小部分，更大的一部分源于技术本身的缺陷。文章来源：AI星球（ai_xingqiu），编译：奇点

“这是以一只鸟！”大部分人看到这张图片通常以“奈秒”甚至是“皮秒”的响应速度告诉自己。

但这在计算机眼中它可能是长这样的......

还有更夸张的，2015年，Google Photos将两位黑人标记成了“大猩猩”。（这嘴巴确实有几分神似）

但是，他的朋友不淡定了“天呐！我的朋友怎么会变黑猩猩。”（图片详情请关注“AI星球（ai_xingqiu）”公众号）

在人工智能大量边缘端设备落地的同时，我们为即将走来的数百万个自动化工作岗位而欢呼，但同时也忽略了目前其自身固有的缺陷：大多数的AI设备还停留在只适用于经过训练的某一狭小领域，而且还会犯严重的错误。

计算机“眼中”的我，一个叼着烟斗的烟民

比如，2009年首次推出ImageNet项目(图像识别)的分类实验结果“ImageNet Roulette”背后就隐藏着莫大的乐趣：

它可以根据自身海量的数据图片对人物、动物等实体照片进行分析、标记及识别等，未来可以让这样的一个标准识别机器人为你做一些滑稽的事情。
如今，ImageNet Roulette重复了Google Photos“误读照片”的旧路，搞了一波大事情。

动物.jpeg

一位坐在开放式的办公位上满脸“无辜”的小伙子，在ImageNet Roulette眼中竟然是叼着大烟斗的烟民，此时此刻还在一架飞机上。

在ImageNet Roulette眼中，这种开放式的办公室布局与飞在数万英尺的高空中的飞机内部布局有着不可比拟的神似性。

ImageNet是一个帮助计算机识别图像、用于视觉对象识别软件研究的大型可视化数据库。

ImageNet以指出图片中的对象为目的，手动注释了超千万的图像URL，并且为其做了至少包含2万多个分门别类。

类别细分至如典型的“气球”、“草莓”等。且至少在一百万个图像中，提供了边界框。

但在过去的十年中，ImageNet一直都是人工智能研究人员所依赖著名的训练数据集，ImageNet有一个“对象识别集”：对“人物”的分类——即著名的ImageNet分类实验，这其下包含了达2833个子类别且各个子类别下都包含了上百张图像，每个子类别都在试图帮助软件完成看似不可能的人类分类任务。

但这其中却存在明显的短板：它通常很难去识别人。

十年前，ImageNet的开发团队便从互联网上抓取了数百万张图像，以此成为了亚马逊机械土耳其人的世界上最大的学术用户。

他们利用了一些零碎的人力以每分钟平均50张图像的速度进行抓取后分成数千个类别。

人工智能 .jpg

完成后，2009年著名AI研究员李飞飞做ImageNet项目交付使用时，当时的ImageNet项目已达到了空前的规模，数据库中涵盖了1500万个标记图像、2.2万种物件（两万多个类别）。

ImageNet是人工智能历史中重要的训练集之一，用其创造者的话来说，ImageNet背后的设计初衷就是要“绘制整个物体世界。

而此次ImageNet项目的分类实验结果就是笑话百出的“ImageNet Roulette”。

缺陷的接盘侠：ImageNet Roulette

正如Roulette翻译为“轮盘赌”那样，ImageNet Roulette实实在在的接盘了ImageNet项目愚蠢的一面。

ImageNet Roulette一直都在开发人员的维护下，作为让公众参与理解那些机器学习系统本质抽象概念的一种方式。

研究人员Paglen说，该项目的一部分也是为了突出ImageNet项目的一些缺陷，比如会以“种族歧视”、“人格冒犯”的方式对人们进行分类。

曾在Twitter上出现的一个有趣的例子：一些男性在上传了本人的照片后，接着就被随机标记为“强奸嫌疑人”，据外媒表示，这其中的原因无法解释。

Paglen对此表示除了突出ImageNet项目的一些致命缺陷外，这也是由于受到人类自身开发的原因，所导致发生的AI系统错误和机器学习偏见的现象。

AI芯片.jpg

事实上这种偏见在AI中众所周知的问题，究其本质有着许多的根本原因。

其中就西方研发工程师来说，通常用于创建算法的训练数据根本上是反映了工程师本人的生活和背景。

由于这些来自高收入国家的西方白人，所以潜移默化中从他们手中敲出的“算法框架”通常也具有一定的偏见性。

近年来AI偏见著名的例子之一就是面部识别算法存在着严重的“种族歧视”，COMPAS 算法就是个鲜明的例子，在它识别非白人用户时会有一定程度的“算法壁垒”。

据悉，当时该算法被多个州、政府机构用于评估犯罪嫌疑人再次犯罪的风险指数，据相关数据显示，黑人被错误标记“重复犯罪嫌疑人”的占比是白人的两倍。

当然偏见远不止这些，谷歌会给女性用户推送底薪广告、亚马逊的当日送达服务有意绕过黑人街区等。

主谋另有其人：WordNet

但据ImageNet Roulette的内部研发人员表示，ImageNet Roulette的这种对“人物分类”的缺陷，AI算法偏见可能只占据了很小的一部分。

其大部分原因是因为它使用的WordNet模式。

如果说ImageNet Roulette是一个“缺陷的接盘侠”，那么它使用的WordNet模式就是背后的“主谋”。

ImageNet Roulette设计之初，便旨在帮助我们了解人类在机器学习系统中的分类方式。

它使用的ImageNet数据集中，就有超过2,500个用于对人物图像进行分类的标签。

同时它使用了开源Caffe深度学习框架，Caffe是一个上手快、速度快、模块化、开放性好的深度学习框架，它是由加州大学伯克利分校的贾扬清制作，目前其就职于谷歌。

贾扬清使用Caffe深度学习框架培训了“人”类别的图像和标签。当用户在上传图片时，程序会首先运行面部检测器进程来定位“目标面部”接着像进入了一个if循环：

如果发现目标脸出现，则将其发送到Caffe模型进行分类，返回原始图像。反之程序会将整个场景发送到Caffe模型，并返回左上角带有标签的图像。
尽管Caffe模型的这种清晰、高效的深度学习框架支持支持命令行、Python等接口，也可以游走于CPU和GPU之间，但ImageNet Roulette这种背后让人“打榜”的技术也不可避免ImageNet自身的问题。

编程.jpg

据外媒表示，ImageNet那些关于“种族歧视”、“强奸犯”、“犯罪嫌疑人”等令人反感的类别，全部都来自WordNet。

ImageNet使用广泛的WordNet模式的变体对“目标对象”进行分类，但WordNet模式就其本身就存在着致命的缺陷。

WordNet在普林斯顿大学认识科学实验室的一位心理学教授的指导下进行研发，开发工作自从1985年开始，便接受了一些来自对机器翻译有兴趣的政府等机构的资助，资助金额超300万美元。

WordNet是一个为开发者服务的庞大英语词汇数据库，由于其本身包含了语义信息，所以有别于通常意义上的字典。

对开发者而言，它既是一个字典，又是一个辞典，相比单纯的字典或词典都更加易于使用，且它支持自动的文本分析以及人工智能应用。

WordNet模型的结构使其成为计算语言学和自然语言处理的有用工具。

但同时WordNet也存在着自然语言处理上致命的缺点：

1.汉语词义翻译存在错误，比如会将“abstract_entity（中文意思：抽象实体）”翻译为“抽象派作品”；
2.WordNet词性较少，以致于有些词压根就识别不出。比如：“I love you.”，WordNet可能只能识别出“love”等）
通过训练数据集来对识别、解释人类，人工智能在一定的软件基础上可能在短时间内会因技术的缺陷、算法的偏见使人工智能系统对人类的分类变得更加有侵略性。

可能技术本身是中立的，但一些地域的开发者在根本上会有着明显的政治、人文的等偏向。

参考链接：

https://www.theverge.com/tldr/2019/9/16/20869538/imagenet-roulette-ai-classifier-web-tool-object-image-recognitionhttps://www.wired.com/story/fei-fei-li-artificial-intelligence-humanity/https://imagenet-roulette.paglen.com/https://www.theverge.com/2019/6/11/18661128/ai-object-recognition-algorithms-bias-worse-household-items-lower-income-countries