面临决策，算法和人类究竟谁更公平？数据显示二者五五开

2017-06-29

如果系统设计合理，算法能为我们带来公平，但应如何衡量算法的合理性呢？

【猎云网（微信号：ilieyun）】6月29日报道 （编译：小白）

编者注：法庭、银行还有其他机构如今正在使用自动数据分析系统来决定你的人生，然而我们绝不应该将决策存在的偏见问题甩锅给这些算法设计者。

来看一篇骇人的报道。标题直述“机器偏见”，下面的导语接着写道：“全国上下正在使用软件来预测未来犯罪，然而该软件对黑人带有偏见。”

ProPublica是一个曾获得过普利策奖的非盈利新闻组织，该组织分析了风险评估软件COMPAS，一款用以预测哪些罪犯更容易再犯罪的软件。基于这些预测，全美上下，法官在审判室内决定被告和罪犯的未来，决策类型从保释金到量刑等所有均涉及在内。当ProPublica比较了COMPAS针对佛罗里达州某一县超过1万名拘押者的风险评估与这些人的实际再次犯罪情况时，他们发现，算法“以几乎相当的水平正确预测了黑人和白人被告的再次犯罪。”但是，如果算法预测错误，则在黑人和白人之间存在较大差异。尤其是，“黑人被贴上高风险但实际上并未二次犯罪的概率几乎是白人的两倍。”并且，在正向决策错误方面，COMPAS似乎也偏向于白人：“他们比起黑人，更容易被标记为低风险，而实际上却有二次犯罪行为。”

使用COMPAS这类系统到底是否合适，远不止种族偏见这一个问题。美国最高法院很快将审理一个特殊的案子，一名威斯康辛囚犯宣称他接受正当法律程序审判的权利因判决他的法官借助了COMPAS而遭到侵犯。当然，其他存在于司法系统之外的自动决策（ADM）系统也有各种潜在的问题。根据在线性格测试，ADM系统帮助人们决策求职者是否适合这份工作。征信算法在你能否获得按揭、获得信用卡乃至成本效益最高的手机交易时都起到了极大的作用。

采用COMPAS这类的风险评估系统也并不一定就是糟糕的主意。很多情况下，ADM系统可以促进公平。人为决策有时候甚无条理以至于我们需要一定的监督来使其符合我们的正义标准。正如一项特别让人不安的研究显示，如果法官刚刚用餐休息结束的话，假释委员会释放罪犯的可能性大大上升。可能，这一点连法官自己都不曾想到。但是ADM系统可以识别这种矛盾并改进决策流程。

然而很多时候，我们对ADM系统是如何运作的没有足够的了解，无法知晓这些系统自行决策时究竟是不是比人类更加公平公正。部分原因在于，这些系统基于连系统开发人员都不太清楚的潜在假设来进行选择，因此很难说哪个系统存在偏见，哪个系统不存在偏见。并且，即便答案跃然纸上，正如ProPublica对COMPAS的结论，真相有时候要复杂得多。

我们应该怎么做才能更好地处理ADM系统呢？如今，民主社会需要比眼下更多的监督来管理这些系统。AlgorithmWatch是一家柏林的非盈利辩护机构，由我和一名计算机科学家、一名法律哲学家，以及数名编辑联合成立，旨在帮助人们了解此类ADM系统的影响。“大多数ADM流程对于受其影响的人们来说都是‘暗箱操作’，这一事实超出了自然规律，必须终结。”我们在宣言中如此说道。但是，我们对这一问题的看法不同于许多批评人士——因为我们担心的是技术可能被不正当的妖魔化。重要的不仅是算法设计者，还有社会，是他们赋予了ADM系统的价值判断。

公平的度量

COMPAS根据调查问卷的回答来决定其风险等级，这份调查问卷涉及被告的犯罪记录与对犯罪的态度。那么，这个过程真的会产生带有偏见的结果吗？

继ProPublica的调查之后，COMPAS背后的开发公司Northpointe否认了该篇报道，认为编辑错误地理解了数据。三名刑事司法研究人员，其中包括一名来自司法改革机构的研究人员都与Northpointe持相同见解。到底谁对谁错——编辑还是研究人员？德国萨布鲁尔根马普研究所专门研究软件系统的网络系统研究小组负责人Krishna Gummadi给出了一个令人诧异的回答：两边都对。

Gummadi在算法的公平性方面有着大量深入研究，他表示ProPublica和Northpointe的结果互不排斥。但是他们的结果之所以不同在于其采用了不同的公平度量。

假设你正在设计一个能够预测哪些犯罪分子会再次犯罪的系统。一个观点是优化“真肯定”，意味着你将尽可能识别出高风险也确实犯下另外罪行的人。这种方法存在的一个问题是它同时也趋向于增加“假肯定”的数量——即人们可能会不公平地被归类为再犯罪者。当然也可以改变度量来尽可能减少“假肯定”数量，但是这样又会导致更多的“假否定”——也就是可能的再犯罪者会成为漏网之鱼，获得轻量刑。

提高真肯定的概率或降低假肯定的概率都是改进统计计量的一个方法，这种方法被称为正预测值（PPV）——即所有肯定预测为真的百分比。

Gummadi指出，ProPublica比较了黑人与白人的假肯定与假否定概率，并且发现系统偏向于白人。与之相反，Northpointe则比较了不同种族的PPV，结果显示概率水平相当。部分原因是黑人和白人的再犯罪概率确实有差异，但数学上可能的是，每组人群的肯定预测值将相似，而假否定概率则不相同。

这件事告诉我们的一个经验是，我们的社会——立法者、法庭以及知情公众——应当决定我们需要这些算法倾向于哪种决策方式。我们主要感兴趣的是宁可错杀一万不放过一个还是尽可能地不伤及无辜？我们应当如何取舍来保证公平公正并降低监禁的巨额社会代价？

无论度量的设置如何，任何算法都将存在偏见——毕竟，它是基于一般统计数据而非某人的个体情况进行预测。但是我们已然可以使用这些系统来指导决策，这样至少可以比人为的自行决策更加明知且公平。

围绕纽约警察局实行的拦截盘查做法的争议恰好帮助我们解释了原因。2004年1月至2012年6月期间，在允许警官当街拦下行人以暂时扣留、盘问、搜身来检查武器和其他违禁品的措施下，纽约市经常一共执行了440万次拦截盘查。但事实上，“440万次盘查中，88%无进一步行动——意味着大部分被拦截盘查的行人都是无辜的，”对此行为，《纽约时报》在一篇社论中进行了大肆批判。更恶劣的是：“被拦下盘查的人种，约83%为黑人或拉丁裔人，哪怕这两大人群仅占了社会一半人口。”这种通过数据分析反应出来的人为偏见，提醒我们ADM系统或可在司法正义中起到积极作用。如果使用合理，根据发现ProPublica用来分析COMPAS方法中的漏洞的三名研究人员Anthony Flores、Christopher Lowenkamp和Kristin Bechtel的说法，这些算法可以“在我们这代人，乃至有生之年，提供一个机会，以科学方式改变量刑并释放大量监禁者。”

但是，假设我们可以接受“如果设计合理，算法或许可以让我们的生活更加公平公正”，可是，我们又如何能够知道算法的设计是不是合理呢？

民主社会如今应当开始致力于研究并判断他们究竟希望这些ADM系统有多透明。我们是否需要新的软件法规来确保其可以被有效监督？立法者、法官以及公众应该对算法优先采取哪种公平度量发表意见。但倘若算法实际上并不能够反应这些价值判断，那么究竟应该指责谁呢？

归根结底，如果我们真的希望有朝一日能利用算法技术带来的优越性，至少我们首先得解决上述难以解决的问题。