猎云网5月8日报道(编译:J.D)
大数据!如果你没有,那你最好也搞一搞,毕竟你的竞争对手都在搞。话说:如果你的数据太小,你的竞争对手会战胜你!就好像打完你的脸然后偷走你的女朋友一样。
以上就是最近流行的大数据叙事。然而这种流俗的论调背后隐藏了很多问题。大数据狂热,主要是因为咨询和IT公司想靠炒作新概念来做些生意。幸运的是,一些诚实的大数据(Big Data)从业者(又名数据专家)对这种风气抱持怀疑态度。他们向我们提供了一连串厌恶这一狂热论调的理由:
甚至Facebook和雅虎这样的巨头通常都不搞大数据,谷歌式的作业并不适合所有公司
Facebook和雅虎都是互联网巨头,内部都有强大的数据服务器集群,用以处理数据。需要用服务器集群来处理,这往往被视为“大数据”的标志。毕竟能在家里的电脑上处理的数据,那肯定不够大。然而把问题分成若干个部分然后放在大型阵列计算机上运行处理,才是大数据经典的特征。就像谷歌需要借助庞大的集群来计算地球上所有网站的排名一样。
但是对于Facebook和雅虎的很多日常任务来说,这种集群貌似并无必要。以Facebook为例,大多数的工程师只需要利用他们的群集来完成Mb级别的工作,这些数据在个人电脑上就可以轻松处理,即使是笔记本电脑也能够轻松胜任。
雅虎也是一样的,雅虎内部交给集群来处理的诸多任务的中位值大约为12.5Gb,这比PC平均处理能力大,但单台服务器完全能够承担。
这些揭秘消息都出自微软研究院网上公布的一份文件,该文件标题叫“居然没人因为购买服务器集群被开除”。文中指出,即使最需要数据处理能力的公司,其工程师搞定问题时其实并不需要用到庞大的服务器集群。看出问题所在了吧?这些公司的服务器集群的数据处理能力往往被浪费——甚至可以说很多集群完全就是摆设。
大数据怎么就成了“数据分析”的同义词?这种误解造成了诸多混乱
“数据分析”是个非常古老的概念了。古埃及法老在统计国库的库藏就得用到数据分析。但现在貌似不加个“大”在前面就不好意思提“数据”这个词了。有些明明是“数据分析”的活儿,非要说成是大数据。甚至出现类似“把大数据引入你的小生意”之类的文章。可是文中所提及的数据处理量,就连 Google Docs 都能搞定,更遑论Exel 了!
必须认清的一点是:事实上,大多数企业处理的都是一些很低端的数据,就像开放知识基金会Rufus Pollock所命名的那样:都是些“小数据”。
不切实际追逐大数据 浪费金钱收效甚微
数据真的越多就越好么?当然不是。事实上,如果你只是想要分析相关性,只要找到X和Y关系的信息就好了。收集更多信息没大用甚至只有负作用。
供职于媒体分析公司 Lithium 的权威数据分析专家Michael Wu写道:“超过一定的数据量之后,从大数据中榨取信息的效率越来越低。”如果你平时对大数据关注不够,那这句话翻译过来就是:一旦大数据的规模超过一个临界点,再往里添加数据就不划算了,只是纯粹的耗时费力。
造成这种结果的原因之一:当你需要寻找相关性的时候,数据越大其中枝节越多,错误也就越多。正如数据科学家Vincent Granville在《大数据的诅咒》里所写的那样:“这并不难解释。例如即使数据集之中只包括1000个因子,那这些因子之间的相关关系数量就高达百万级别。这也就意味着一些因子之间的关系可能完全是随机的,以此来建预测模型,你会输得很惨”。
有时候,大数据是条不归路……
当企业开始搞大数据的时候,他们就走上了一条艰难的道路:必须去学习搞懂一些很艰深的学术概念——统计、数据质量等等所有跟“数据科学”有关的内容。然而正如所有学科一样——数据科学也充斥着很多无法验证、不知真假、难以辨识的理论和方法。这潭水深着呢!
数据收集过程中的偏差、数据语境的缺乏、所收集数据中的断层、演算数据的方法等等这些错误,最终都可能把大数据分析导向错误的方向,即使最好的数据研究员也无法面面俱到。MIT Media Lab 访问学者 Kate Crawford 明言:“我们可能被对算法的美好幻想给迷惑了”。换句话说如果你搞到了大数据,但别以为你们公司IT部门的张三李四这些人就能帮你处理好它。你可能需要找一个科班出身的博士头衔的牛X人物,或者具备同样工作经历的大牛。即使你找到了这个人,他也帮你分析了,最后他可能会忠告你:其实你并不需要什么“大数据”……
所以,大数据和小数据究竟哪个更好一点?
你所从事的生意需要数据么?当然。然而正如这幅漫画所展示的,盲目跟风大数据是傻X老板才干的事儿。自从学科奠基开始,这些问题一直困扰着数据科学界:数据质量,整体目的,数据的情境和关联度——在企业利用大数据进行决策的时候,这些问题同样如影随形。请记住一点,孟德尔解开遗传的秘密只用了写满一个笔记本的数据。重要的是收集正确的数据,而不是尽可能收集最大量的数据!
消息源: QUARTZ 文中漫画作者:Scott Adams