融到E轮的AI独角兽,启动IPO
融到E轮的AI独角兽,启动IPO
雷军投资的手机回收公司,冲刺IPO
雷军投资的手机回收公司,冲刺IPO
23万开卖的极氪7X,想跳出Model Y画的舒适圈
23万开卖的极氪7X,想跳出Model Y画的舒适圈
奔驰彻底退出,比亚迪全面接管,腾势身份变了
奔驰彻底退出,比亚迪全面接管,腾势身份变了
立即打开APP
猎云网
私信
19

大数据的困境:开放可复查与隐私保护矛盾

2013-12-27
上市公司
Facebook经常公布一些研究用户数据分析出来的结果,例如最新一份就是全球移民形势图。然而“相同的数据往往会有很多种不同的解释。但是因为只发布结果,而没有公布原始数据,所以就不具备复查性”。大数据的开放复查和隐私保护之间的矛盾难解。

猎云网12月27日报道(编译:李军)

Facebook拥有相当数量级的数据,它掌握了超过十亿用户的个人习惯,这些数据拥有相当可怕的力量,公司可以用这些数据来为客户发布广告甚至与其他公司或者客户分享这些数据。这些数据还可以让我们看到一个新的世界,帮助我们更好的了解我们所生活的世界。

最近Facebook通过其庞大的数据预测了全球用户移民情况。在一篇博文中,Facebook的数据团队描述了“协调移民”的概念,意为许多人从一个地方移民到另一个地方。

根据Facebook从其社交网络上收集到的信息,在印度、尼日利亚、土耳其等城市,越来越多的人从农村搬到了海德拉巴(印度)、钦奈(印度)、亚拉格斯(尼日利亚)等这样的大城市。Facebook称这些城市为“目标城市”,比如土耳其的伊斯坦布尔,吸引了大量外国移民。而在美国,协调迁移吸引的更多也是外国移民,从古巴移民到迈阿密,从墨西哥移民到芝加哥、休斯顿、达拉斯、洛杉矶等这样的大城市。

问题是Facebook提供的只是一个小数据,从某种意义上说,不过分公开数据是他们应该做的。我们不希望社交巨头过分的公开我们的私人数据。但这也意味着外部数据科学家没有办法审查Fcaebook公布的调查结果是否可靠。

这是一个难题,至少在可预见的未来会一直持续下去。此前有匿名数据对外公布过,但是正如我们看到的那样,不是所有的匿名数据都是匿名的。这不是科学家第一次使用Facebook数据来分析移民情况。2010年,苹果前开发者Pete Warden就发表过一篇博文,他详细分析了从Facebook的文件中得到的数据,虽然他的初衷是与大家一起分享数据,但是这却受到了Facebook的法律诉讼。

现在,Facebook已经习惯了发布基于自有数据的分析报告,包括移民分析以及其他众多数据内容。但是Warden对此深表怀疑:“这些数据是远远不够的,我认为这些研究是有问题的,他们给我们的往往只是一个片面的观点。”Warden现在是Jetpac数字旅游指南的CTO,他告诉WIRED:“从我们自己的经历就能发现,相同的数据往往会有很多种不同的解释。但是因为只发布结果,而没有公布原始数据,所以这可能只是其中的一种解释。”

Warden表示,虽然许多世界顶尖数据科学家都在Facebook这样的互联网公司工作,但是这并不意味着就能解决整个问题。回顾他们所做的工作,他们依旧需要外界的帮助。他相信外界压力会推动Facebook这样的公司公布越来越多的数据,也希望看到越来越多的学者一起来推动这类信息的公布。很多编辑和创业团队通过使用公共信息以及调查而获得的成效远远超过了那些曾被信任的科学家公布的数据。

亚洲移民情况

Devin Gaffney,一家叫做“小鸟”的创业公司的开发人员,拥有牛津大学互联网社交科学硕士学位,他表示:“很多研究人员已经开始这样做,比如Danah Boyd、Helen Nissenbaum等社会科学家。人际互动中潜藏了大量有用数据,但这些数据的结果更加偏向互联网用户,不过相比以前,有了这些数据已经是一大进步。而且现在完成这些工作再也不用调查成千上万的用户了,只需要一些代码就可以解决。”

但隐私问题仍然没有解决。虽然许多学者正在试图染指社交媒体,由于隐私问题的存在,互联网公司越来越不愿意和其他公司分享这些数据。许多研究人员即使拿到了数据,他们也没有办法使用,这取决于互联网公司的服务条款或者大学的伦理政策是否允许他们这么做。

很多研究人员从Twitter上拿到了数据,因为这些信息都是公开的,不是私人的,这就意味着他们有权使用相关数据。如果从Twitter上收集到了相关数据,但是服务条款注明不能使用它们,那么就意味着Twitter公布的结果无法得到复查。

一些公司正在通过责任制等方式与研究人员分析更多数据。著名数据网站OK Cupid公布了关于性爱的在线数据,该公司的联合创始人Christian Rudder说,他们经常和研究人员共享数据,虽然采取匿名化数据,但是数据的信息量依旧足够支持其理论。研究人员必须建立在学术背景上才能使用这些数据,而不能用于商业用途。到目前为止,该公司只为10%左右的研究人员提供数据。公开数据是一个矛盾的问题,但是他们希望这方面会变得更好。

他们不会提供应用数据接口或者API,不允许任何人拿到他们网站的数据,如果他们让其他人通过开放的API抓取数据,结果可能变得很糟。但是对于大家都有用处的数据,我们会努力提供更好的研究。

作为用户,我们还是希望不管是否开放了API接口,都能有效保护我们的隐私。

VIA WIRED 

猎云网APP阅读全文

体验更加

猎云网

微信扫码关注猎云网

  1. 猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权;
  2. 转载时须在文章头部明确注明出处、保留官方微信、作者和原文链接,如:转自猎云网(微信号: lieyunjingxuan )字样;
  3. 猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。
  4. 联系猎云,请加微信号:jinjilei
猜你喜欢
长按图片可以分享给好友
×