欢迎访问中国人民大学性社会学研究所!
您的位置:首页>>定量研究
全文检索
定量研究
“大数据崇拜”批判:4.谁能用?
作者:潘绥铭  时间:2015年10月14日
来源:作者投稿
 

“大数据崇拜”批判:4.谁能用?

潘绥铭

“大数据崇拜”的最初级的也是最严重的错误就是,误导人们以为,只要大数据在手,就可以身手不凡,甚至可以“自然而然地”大有建树。

问题仅仅在于:您做过哪怕一次数据分析吗?

 

不管数据大小,只要开始分析,那么首先必须做什么呢?就是给“样本”和“变量”分别做出分毫不差的定义。

样本就是,这些数据说的是什么人?变量就是,数据说的是什么事?有了这样两个最起码的定义,我们才有可能继续分析下去,究竟是什么样的人做了什么样的事,最后才能知道,这种情况是否符合我们的假设。

可是,一切大数据的收集者,能够做到这两点吗?肯定不能,因为他们其实只不过是固定录影机,连摄影师都谈不到,因为任何摄影都是有选择地取景,而大数据却是来自漫无目标的客观监测,连收集者自己都不知道要用来做什么。

还是以网购监测的大数据为例来说清楚吧。

 

首先来看“样本问题”。

互联网的名言是:“在网上,你不知道对方是不是一条狗。”那么您凭什么去分析“客户心理”啊?当然您可以说,我问过他们啊。可是,我自己在20多天的“入住式”和“相处式”调查中,都曾经被对方蒙得一头雾水;您就凭网上的几个自填选项,就能判定对方的社会地位,这岂不成了“远程号脉”?这能够说服您自己吗?

尤其是,即使是那区区几个选项,是自然科学给您的吗?还不是我们社会学的成果?现在中国的社会如此之复杂,人群何等地多样化;您不来学点社会学,可怎么往下混啊?

 

再来看“变量问题”。

在如此这般的大数据里,很重要的一项内容就是购买者的鼠标轨迹,例如,他们的鼠标最先指向了哪个商品?在哪个商品上停留的时间最长?是否“点而未击”或者“擦肩而过”?

据崇拜者说,这就足以分析出这个购买者的消费选择,再加上记录了数千万人的鼠标轨迹,那么大数据就铁定是得天独厚,无可比肩。

世界和人生要是真的这么简单,那可就太好啦!

请问,那些在空白处划过或者点击的轨迹,是什么意思呢?那些一动不动的轨迹又是什么意思呢?那些不连续的轨迹还有什么意思吗?结果,您最简单的办法,就是对这样的轨迹视而不见。可是,那您干嘛非要费那么大的劲儿去收集“大数据”呢?上街去,找人问几个问题,不就足够啦?

当然,您还可以干脆删除这样的无法定义的数据。可是,这不恰恰是我批判您的“裁剪生活、削足适履”吗?说严重些,这就是造假啊!

所以啊,您不是还得来请教我们这些研究人与研究社会的书呆子吗?

只有我们才能给样本和变量加以定义,而且检验其精确度、适用性和可持续性;才能告诉您,人类行为的意义、社会的作用、主体的建构、情境的制约等等“非科技”的知识;才能把您的大数据进行分类或者聚类;才能提供进行数据分析的充分条件。

 

总之一句话,所谓的大数据,其实只不过就是一堆垃圾,只有社会研究和人文研究,才可能把它变废为宝。

OK

Copyright © 2002 .Institute for Research on Sexuality and Gender , Renmin University of China
中国人民大学性社会学研究所版权所有   电话:(010)6251 4498    京ICP备12030030号
潘绥铭教授:  pansuiming@sex-study.org    黄盈盈副教授:huang.y.y@sex-study.org 
给本网站投稿:tg@sex-study.org 管理员邮箱:admin@sex-study.org