AI识别性取向？对不起，这可能是人类灭亡的开始

2017-11-02

课堂-----

AI真的会被用来迫害性少数群体吗？

【AI星球（微信ID：ai_xingqiu）】11月2日报道（编译：福尔摩望）

此前，斯坦福大学的一对研究人员发表了一个惊人的研究结果。他们使用来自约会网站的数万张照片，训练了一个面部识别系统。据研究人员透露，该系统可以通过面部识别出一个人的性取向。这项研究工作首先被《经济学人》报道，随之各大刊物纷纷跟上话题，用“新AI可以根据照片猜测你的性取向”的头条轰炸着我们的视线。

也许你已经猜到了，事实并不是如此。基于这项研究工作，AI无法根据照片识别出你的性取向。但是这项研究却直接唤起了人们对人工智能的恐惧。AI的出现为监控和控制开辟了新途径，对边缘化群体的伤害尤为明显。这篇研究论文的作者之一——Michal Kosinski博士表示，他的本意是提醒人们有关AI的危险，并警告称不久的将来，面部识别不仅能够识别一个人的兴趣型，还能识别一个人的政治观点、犯罪行为甚至智商水平。

这项研究也让一些人担心我们会重新陷入一个历史悠久的古老信仰：从外表来评价一个人。这种伪科学的信仰助长了19世纪和20世纪的科学种族主义，并造成了道德陷阱，催生了如种族屠杀、迫害等恐怖行径。批评者认为Kosinski的研究工作试图用21世纪的神经网络取代19世纪的卡尺，不过教授本人表示他对自己的研究结果也感到恐惧，并乐意证明研究结果是错误的。他说：“这是一个有争议、令人不安的话题，对我们造成了困扰。”

但是AI的出现，是否让伪科学重新伪装进入世界？有些人认为，机器只是能比我们更多的了解人类。但是如果我们用自己的偏见来训练它们，赋予它们一些已经被遗弃的旧思想呢？我们该如何知道其中的差别？

AI真能识别性取向吗？

首先，我们需要研究一下由Kosinski和Yilun Wang合作发表的研究论文。这份研究结果并没有被很好的报道，其中参杂着许多对系统精确度的错误陈述。研究论文中写道：“基于单一的面部照片，该软件可以正确区分81%的男同性恋者和异性恋者，以及71%的女性队形。”当照片数量增加到5张时，系统的精确度将分别提升到91%（男性）和83%（女性）。

从表面上看，这听起来很像新闻头条中所说的那样，但其实这里的数字是不严谨的。当显示随机照片时，AI的正确率并没有达到81%。这项研究的过程是在一个同性恋者和一个异性恋者的两张照片中进行测试，然后询问AI哪个人更有可能是同性恋。虽然它能够分别猜测出81%和71%，但是这种测试结果是以50%的基准开始的，即使是随机猜测，也能超过50%的正确率。

马里兰大学的社会学家Philip Cohen撰写了一篇批评文章：“当你拥有他人未知的个人隐私或性取向时，你会害怕别人知晓，你不希望去看体育赛事或飞机场时，被面部扫描出自己的性取向。但是目前还没有足够的证据能够证明这项技术能做到这一点。”

Kosinski和Wang在论文最后对此进行了清晰的陈述，他们使用1000张照片而不是两张测试了系统。当他们询问AI系统谁最有可能是同性恋者时，AI的正确率仅为7%，这一数字也正好是美国人口中同性恋者的占比。当被要求选择出100个最有可能是同性恋者的对象时，系统只能识别出总共70名同性恋者中的47人。

如果你想要用这一系统来识别出同性恋者，那么你无法确认你得到的是正确答案。不过，如果你用大量数据集进行训练，有可能会得到极高的正确率。但是剩余的研究表明，这一项目还有更多的限制。

哪些是计算机可以而人类不可以察觉的？

这一面部识别系统是使用哪些因素做出判断的还尚不清楚。Kosinski和Wang的假设是基于结构的差异，即男同性恋面部的女性特征和女同性恋面部的男性特征。但是AI也有可能被其他刺激所影响，比如照片中的面部表情。

这一点非常重要，因为研究中所使用的照片都是从约会网站上获取的。正如Oberlin学院的社会学教授Greggor Mattson在博客中所指出的，这意味着照片本身是具有偏见的，因为它们是被专门选择出来针对某一特定性取向的。这些照片几乎完全符合我们的文化对同性恋和异性恋的大致期望，更需要注意的是，所有的实验对象都是不包括双性恋和跨性别者在内的白人。当一名异性恋者为约会网站选择照片时，他会选择更具有“男子气概”的照片。

为了确保他们的系统只关注面部结构，Kosinski和Wang使用了一款名为VGG-Face的软件，这款软件将面部编码成一串数字，并用于诸如识别油画中名人画像等任务。他们所使用的程序尽可能的减少如照明、姿势和面部表情等“瞬态特征”。

但是从事AI面部系统研究工作的Tom White却表示，VGG-Face其实非常擅长于识别这些因素。White在Twitter上指出了这一点，并在电子邮件中介绍了他是如何使用和测试这款软件成功的区分出了诸如“中性”、“快乐”等表情以及姿势和背景颜色。

Kosinski表示，他和Wang明确了解面部头发和妆容可能影响AI的决策，但是他仍然认为面部结构是最重要的。他说：“如果你查看VGG-Face的整体性能的话，你会发现它对瞬态面部特征侧重很小。我们同样也提供了证据，表明非瞬态面部特征似乎更能决定性取向。”

但问题时，我们并不能完全确定。Kosinski和Wang还没有发布他们所创建的程序和用来训练的照片数据集。他们的确在其他照片来源上测试了AI系统，来检验是否有同性恋和异性恋共有的识别因素，但是这些测试仍然是有限制的，所选取的数据集仍然是有偏见的（他们所选取的是曾点赞过同性恋页面的Facebook男性用户头像）。

这些群体中的男性是否能够代表所有男同性恋者？不能，Kosinski也表示他的研究工作可能是错误的。他说：“我们需要进行更多的研究才能证明这一点。”但是如何彻底消除选择偏见来执行结论型测试同样也是很棘手的。Kosinski说：“你不需要了解模型是否能够正确工作。”然而，算法的不透明让研究工作也变得不值得信赖。

如果AI无法显示处理过程，我们能相信它吗？

AI研究人员不能完全解释他们的机器处理的过程。这是一个跨越整个领域的挑战，有时被称为“黑匣子”问题。虽然研究人员正在努力改进，但是由于训练AI的方法，这些程序无法像软件那样显示处理过程。

“黑匣子”问题同样也会导致各种各样的新问题。最常见的是，训练数据中人类的性别歧视和种族歧视会被AI获取和重制。在Kosinski和Wang的工作中，他们相信系统主要是分析面部结构，所以他们认为自己的研究结果显示了面部结构能够预测性取向。

相关专家表示，这是一个具有误导性质的声明，并不能被最新科学所支持。研究性取向生物学的伦敦国王学院学者Qazi Rahman认为，有可能因为子宫内的激素平衡问题，使得面部形状与性取向存在着某种联系，但是这并不意味着可以用来预测性取向。他说：“生物学比我们想象的要复杂，即使是细微差别也会导致最终的结果不同。关键的问题是其中的联系有多强。”

性取向主要来自生物学的观念本身也是有争议的。认为性取向主要是生物原因的Rahman也赞扬了Kosinski和Wang的研究工作。他说：“这不是所谓的垃圾科学。只是这种科学不太讨人喜欢。”但是涉及到性取向的预测时，他认为有一整台的“非典型性别行为”需要考虑。“对我来说，这项研究漏掉了一个关键点，即行为。”

澳大利亚国立大学社会学讲师Jenny Davis将其描述为一种生物本质主义的形式，即相信诸如性取向等的事物是来源于身体本身。她说，这种方法是具有两面性的。一方面，它的确是一个有用的政治工具，将同性欲望从道德堕落中分隔开来。但另一方面，它又降低了这种欲望的价值地位，将异性恋设为正常取向，把同性恋定位为“不那么有价值的一种疾病”。

而在Kosinski和Wang的研究中，AI面部识别具有更加黑暗的特征，即一些批评者所认为的“外表决定论”的反噬。

平面化的性格

几个世纪以来，人们认为面部是识别一个人性格的关键。这个概念源于古希腊，但在十九世纪尤为具有影响力。“外表决定论”的支持者认为，通过测量某个人的额头角度或鼻子的形状，可以判断一个人是否诚实或是否犯罪。去年，中国的AI研究人员声称他们可以使用面部识别来判断一个人。

他们的研究成果“使用面部图像自动推理犯罪行为”在AI社区引起了一个小小的波动。科学家指出了研究中的缺陷，并认为这项研究工作只是在复制人们对于“漂亮”的偏见。

Kosinski和Wang在研究论文中明确指出了“外表决定论”的危险性，并指出这种行为将迷信和种族主义伪装成了科学。不过他们仍然继续了这项研究，只是因为这一话题是“禁忌”，并不意味着事实上就是错误的。他们说，由于人类能够以“低精度”读取其他人的个性特征，所以机器应该能够更准确的完成这一工作。

Kosinski说，他的研究使用了严谨的科学方法，所以并不属于“外表决定论”，论文中也列举了一些研究，表明我们可以不同精度从外表推断一个人的性格。他认同面相学不是真正的科学，但是计算机可以揭示出其基础概念的真相。

对于Davis来说，这种态度来自对AI中立性和客观性的广泛误解。她说：“人工智能事实上并不人工，机器学习就像人类学习一样。我们接受文化教育，吸收社会结果的规范，人工智能也是如此。因此，它将重新创建、放大和继续我们的学习轨迹。

我们已经创造了具有性别歧视和种族歧视的算法，这些文化偏见和面相学都是依靠不好的证据来判断别人。中国研究人员的研究就是一个极端的例子，但却不是唯一的。至少已经有一家创企声称可以使用面部识别来识别恐怖分子和恋童癖，还有一些创企则声称能够分析情商和进行人工智能监控。

未来的AI应用

回到最初的问题：AI真的会被用来迫害性少数群体吗？这个系统？不可能。其他的呢？也许。

Kosinski和Wang的研究并不是无效的，但是其结果仍然需要严格的检验和进一步的测试。没有这些，我们只能将它视为区分特定约会网站上同性恋和异性恋白人之间差异的工具。我们不知道它是否能够用来推断所有人的生物差异；我们不知道它是否经过更广泛的照片数据集训练；而且这项研究只能表明可以通过对下巴的测量来判断性取向。它对人类性取向的解码还比不上AI聊天机器人对人类对话的解码。

Kosinski表示，这项研究是用来提醒人们的，但是他也承认存在着一个“不可避免的悖论”，即你必须要要解释你是如何操作的。本文中所使用的所有工具任何人都可以查找到和使用。深度学习教育网站Fast.ai的研究院Jeremy Howard认为，很有可能许多组织都已经完成了类似的项目，但是没有在学术文献中发表，这一点也是很合理的。

我们所提到的创企想要找到政府机构使用不是很难。诸如伊朗和沙特阿拉伯等国，同性恋仍然受到死刑的处罚；在许多国家，同性恋意味着可以被国家监禁、折磨和迫害。最近有报道说车臣共和国的同性恋集中营重新开放了，那么如果有人决定自己制作一个AI同性恋检测雷达，并通过俄罗斯的社交媒体扫描档案照片呢？

所以，Kosinski和Wang的系统精确度并不是重点。如果人们认为AI可以用来确定性偏好，他们就会使用它。考虑到这一点，我们需要比以往任何时候都要了解人工智能的局限性，并在开始产生影响前尝试和解除危险。在我们教会机器偏见之前，我们需要先教育自己。