猎云网9月12日报道 (编译:小白)
作者简介:Mr. Rudder,OkCupid的总裁兼联合创始人之一,著有“Dataclysm”一书。在本文中,他指出了网络服务提供商收集用户数据是完善服务的必要手段之一。但是这种数据收集必须要有规范的底线标准作为监控。
OkCupid,一个我参与建设的约会网站,今夏对外宣称说通过对其小部分用户数据的测试,证明了他们所用的匹配算法是十分有效的。我们一直在利用网站的数据来完成某些测试,我们之所以关注这些测试是因为这些数据结果有助于我们提高用户的体验。测试很简单,而且每个数据提供者都会在试验结束后被告知。
但是人们得知我们所做的试验后,对此十分抵触。回想起来,是我们公布测试结果的方式触怒了公共大众。我们在我们自己的博客上提到了这项测试,向大家解释了我们的测试结果,却对测试的目的只字未提。用户数据的收集和分析极具敏感性和复杂性。我们对一项重要问题的分析变得如此令人讨厌,而且很多人甚至认为我们私下里根本不把用户的感情生活当一回事。这是个令人不安的想法,即使事实并非如此。然而,我们可以为我们发布测试结果的方式向公众道歉,但是此问题引发的强烈抗议带来的一系列更大的问题,是OkCupid和其他任何一家公司都无法解决的。
和其他数据专家一样,我担心这些辩论会错过一些珍贵的机会——在6月份的一次辩论中Facebook透露,它已经改变了它的新算法。互联网积累了大量的信息,在这些信息背后隐藏着不可估量的社会潜力。用户为公司提供的数据帮助他们改进了他们的网站、获得利润;这是众所周知的事实。但是相同的数据也可能阻碍对社会的重新认识和发现新科学。
OkCupid的实验以制定更优秀的匹配为终极目标测试了我们对共同性的评估。对任何两个两户,我们通常以两人之间兴趣爱好的相似程度来评估匹配的可能性。但是在这项测试中,我们用“placebo”替换了我们的猜测,“placebo”是针对某一对用户的随机数字。实际上,我们一直忽视了共同兴趣爱好在预测两人之间吸引力的作用(基于“异性相吸”的可能性或者共同兴趣爱好根本与吸引力无关的想法)。但是其他用户用来选择另一半的信息——例如个人简介,照片以及个人陈述等等,我们依旧保留着。
我们发现具有相同兴趣爱好的两个人确实能够相处的更好,但我们还发现如何定义这个相似程度对结果具有重要的影响。也就是说,人们不会凭空找到“很多相同点”,即使是像我们这样成功的网站——我们还是需要对这个共同性多加注意。我们相应地改变了OkCupid的界面,现在我们更强调相似程度值的高低。
与此同时,我们把共同爱好的“定义”归入到我们的心理档案中,与过去十年中我们在人们身上发现的其他数百件事情归类到一起。在这些发现中,有女性法官的严厉程度是男性法官的两倍,有人们眼中的美会像物理数值一样呈指数增长——比如里氏震级,有政治在约会中的作用并没有你想的那么重要,也有白人喜欢讨论他们的头发。
我们的工作是帮助人们走到一起。基于这个原因,我们在人们是如何走到一起这个问题上做了很多的研究。
其他的网站,有着不同的目的,因此也着力于研究其他方面的事情。总而言之,我们正在努力了解人性。社交网站正在重塑社会学——它把社会学从过去传统的调查问卷和实验室中解放出来从而走进真实的生活中。
在网上,你有好友,情人,也有敌人,有那么几次你甚至强烈的感觉到没人知道你在做什么。表面上看来确实如此——当然除了你的电脑机械地记录着这一切。一旦收集并隐去个人信息,那些记录的数据,不管是从试验中收集的还是用户直接提供的,都能够告诉我们,我们的生活是一个什么样子。
OkCupid偶尔会与公司外的学者合作改进我们的发现,但是有些公司已经将这种合作关系内部化了。Facebook就为自己建立了一个世界一流的研究团队,专门解析他们数据结果的学术价值。就在过去一年里,他们追踪了我们为了研究谣言传播方式的而分享到状态更新上的模因;他们发布了一篇对情侣之间朋友关系络的调查论文(令人惊讶的是在这篇论文里发现,一个分散的朋友关系网可以使婚姻更加稳固);他们还跟踪了当人们开始集体迁移到城市中心时,东南亚村庄人口减少的情况。
Google也有对社会研究进行投资。Seth Stephens-Davidowitz,Google社会研究的一位科学家,最近利用搜索数据对美国社会的同性恋人群进行了估计。他证明了意见的不宽容是如何让两人保持亲密的关系。他给我们看了一组图片,和压抑的情感代价有关:搜索“我的丈夫是同性恋嘛”这个内容在那些禁止同性恋结婚的州更为常见,同样的情况如Craigslist网站上匿名同性恋性行为的帖子数量。如他所说,“有大量的秘密在美国没有被公开,这些可以直接被归咎于对同性恋不宽容导致的。”他用我们收集的数据解释说。
这些研究的可能性根据人所处的环境、身份等不同而各不相同,它的独特之处是可以发现隐藏的故事,因为数据揭示了我们正在做什么,而不仅仅是我们正在说什么或者我们希望做什么。特别是Facebook,由于它在全世界的广泛流行,使得它的研究人员可以了解到其他研究人员无法接触到的人群。我曾经亲眼见到OkCupid的消息模式是如何出卖我们对黑人用户的偏见——这种偏见甚至依然存在沿海,高层次,看上去进步的观众中间。在Google,他们还发现美国人每年搜索种族笑话的次数至今仍保持者数百万次。这些都是值得我们了解的。
至今仍有许多伦理问题有待解决。我发现网站和他们的用户之间最直接的沟通交流还需要改进。我们如何在保护个人隐私的同时又继续使得缺乏明显个人信息的数据存在其本身的意义呢?我们又该怎么保证用户不会处在任何的风险中?什么是在允许的范围,什么又是应该被禁止的呢?
传统的科学多年来一直都在寻找这个答案。数据科学已经开始制定标准,但是它必须马上成熟起来。我希望与科技公司能有更多的合作(以及较少的指责),对于科学家和学者,我们将努力把过去的研究方法转变到我们的新媒体中去。
我们生活在一个隐私越来越少的世界。技术掌握了我们生活中重要的部分。这是一个事实——由我们这些网络创建者以及用户们共同创造的。
我们都知道技术公司所创造的巨大财富,但是许多业内人士认为其中有着某些极具知识和价值的东西。我是其中之一,同时我也渴望看到价值的实现:从我们所知道的新的知识到一个永恒的好处。
Source:TC