c

大数据:孕育一个更科学的人文与社会科学?

文=Ralph Schroeder

对互联网应用的研究改变了知识,这种改变正在以多种形式发生,包括学者们的交流、信息接触、数据分析方式等。本章我们着重研究:互联网和计算机信息处理技术是怎样改变知识生产的。这一领域已经被频紧地贴上了各种各样的标签,包括电子科学、网络科学、电子基础设施、计算科学、数字研究,这也经过了包括网格、网络服务和云计算等在内的很多阶段。这一转变最新的化身是“大数据”,大数据使计算方法成为人文和社会科学的必需品。不仅在学术界,在公共和私营部门的应用上,大数据也引起了相当大的关注。在自然学科方面,大数据被认为是潜在的时代变革,伴随而来的是来自传感器网络、望远镜和健康状况的数据流,诸如此类。我们主要探讨在没有完整记录但与互联网研究者密切相关的领域探讨大数据:人文和社会科学。

 

对于每一个提及的标签和阶段,有一个反复的问题:大数据研究有什么新颖之处?尽管不是从根本上改变所研究问题的性质,互联网难道不只是让研究变得更简单快捷吗?本章在大数据计算方法的驱动下研究了三个案例:引擎行为、大规模的文本分析和微博,这些研究领域阐明了大数据带来的机遇和挑战的不同方面。在搜索引擎行为的分析案的中,允许社会科学家检测人们都在搜索什么。第二个大规模的文本分析计算方法已经用在了人文和社会科学上,例如,去探测文化、文学和历史的变化模式。最后是对微博服务的分析,例加,Twitter。Twitter已经成为当前最流行的研究目标,并提出了一个新问题:信息怎样在不同的媒介中传播?

 

三个案例涉及关键词或文本的大型语料库分析——第一个案例中由信息想寻寻者生产,第二个案中由作者生产,第三个案中由微博主生产。正如我们将要看到的,他们提出有关计算方法的重要问题值得进一步深入研究。

 

这一领域有一种质疑的声音一直在拷问,“大”数据和计算方法的实用性是否正放在提出正确问题之前。简面言之,是尾巴(可用数据的实用性)在摇狗(好问题——一些应该在考虑哪种数据可用之前提出来的说法)吗?这个问题被看作是对人文和社会科学大数据的广泛关心(正如本标题所陈述的那样),或者说大数据是否可以被看作是一种使人文和社会科学朝着更定量和可计算转变的趋势?从特定意义上说(在小结处讨论,大城据是否算一种科学的研究方法?一些人持积极态度,另一些人持消极态度。接下来会说明,大数据是否被错误的问题劫持或正在劫持,这种担心是合理的。关于大数据正在怎样转化我们所知道的知识,以及关于产生进步的社会影响,有更多有用的问题将被追问到。

 

本草会简单地描述三个案例,仔细权衡这三种类型的大数据研究计算方法的主要优点/创新和缺点/局限性。目的在于简单评估这些研究对于知识进步的贡献,提出这些方法有待考证的议题,从而估测大数据在设置当下和未来研究义程中的角色。一旦这三个案例被讨论,本章将会转向大数据计算方法带来的更具普遍性的议题。

 

大数据可以被定义为一种研究,这种研究以史无前例的规模和范围,通过捕获、聚合、操作给定现象数据的方法制作而成。不像着重计算机处理和存储能力的其他概念(例如,太字节),这里定义的概念集中在被研究的对象和可用于分析这种对象或现象的数字工具或材料的关系上,简单地说这种定义不仅仅是技术或数据,而是有关于研究的对象,后面我会再次重复这一点。不管怎样,值得注意的是,虽然有一些关于大数据研究含义的讨论,社会上很少有通过社会科学来理解大数据的角色(关于大数据主要的例外在下文会讨论)我们会在结论中证明这些含义关键是理解研究技术怎样驱动知识进步,因此提出这样的问题:研究技术和大数据能够让研究找到新的方向吗?或者能够更好地补充和扩张现有的研究方向吗?

 

更大的问题在小结处提出,但是在最初阶段,让我们依次讨论以下三个案例。

 

搜索引擎行为

 

搜索引擎行为分析已成研究的主要领域。这里有必要单独拿出一个例子来具体说明大数据的机遇和局限性。谷歌在澳大利亚有几乎90%的市场份额。Vivenne Waller已经可以利用“事务记录对2009年4月进入搜索引擎谷歌(澳大利亚)搜索查询的类型和话题提供分析”,她也有来自销售公司加Hitwise Experian关于11种生活方式的群体数据,这种分类几乎囊括了整个社会经济分层的群体,并通过搜索检索词来分析。她分析了2009年4月几乎所有检索词的1%。抽取了6万个不同的检索词,占所有搜索查询的28.7%作为样本(一个查询一般包括2到3个检索词,因此她捕捉到“每一个检索词在4月都出现不止一次,以及加上随机抽样的只出现过一次的样本”)然后她用78个编码合并成15个大的主题分组,例如,“高雅文化”和“大众文化”、“电子商务”、“天气/时间/公共交通”和其他几类。

 

她的发现包括“查询大众文化和电子商务占到了搜索引擎查询几乎一半”和“搜索查询话题的分布规律没有特别大的变化,不同生活方式的人群大致可分为大众文化、电子商务、文化实践和成人“。这很出乎意料,预想是不同生活方式的群体或人口统计数据,或专家与互联网深度用户,会搜索不同的东西。然而在澳大利亚,事实看上去却是来自不同社会经济群体的用户有相的搜索习惯。Waller还有一些其他有趣的发现,包括人们寻找“特定的当代热点问题占所有搜索还不到1%。关于政府的搜索,包括项目、政策,在所有互联网搜索中所占比例还不到2%”。总的来说,她证明了与搜索知识和信息相比,搜索引擎更主要是一种休闲和消费的技术。

 

大数据在这里提供了一个什么样的新视角?在搜索的案例中,因为谷歌几乎垄断的份额,所以这里一个月的数据可以代表所有人搜索的数据,可以被看作不可替代的数据集,即使样本仅占数据总和的1%。

 

我们注意到与之前定义相吻合的,不是数据的大小,而是数据提供了对于一个特殊现象相当全面的证明(澳大利亚人所搜索的)。如果大数据被定义为:只要知识规模和范围比之前任何给定领域可以获得的数据都要大的数据集,那么以下坦采尔提供的数据就可以被看成是大数据。坦采尔,Hitwise Expperian公司的总经理有更大的样本,包括1000万名美国人很多年的搜索数据,不过他的分析被发表在非学术性的书籍上,然而Waller的论文发表在排名最高的信息科学领域同行评议的杂志上。通过其他途径也可能获得澳大利亚搜索查询有代表性的样本,如调查用户(让他们记录自己的搜索查询行为),通过让大的用户记录他们在电脑的一个月或更久时期内的搜索行为。但是可以想象收集如此大规模的数据资源(这种数据经常被大数据参考,与使用现成数据不同)。对于学术社会科学家而言,思考涉及道德约束的研究(研究者怎样获得数据?或者伦理上怎样赞成研究者去刺探人们的隐私)也很有趣,但可能被禁止。Waller的论文,是一种数据案例,这种数据不是被用来做社会科学研究的,但却是被用来推进搜索引擎用户中的特定群体搜索有关的社会科学知识。它提供的数据分析规模前所末有,既囊括搜索引擎行为领域,又包含社会群体搜索的内容(说它是“前所未有”是相对于人们搜索信息之前所了解的,虽然也有更大规模和范围的数据集,如坦采尔的研究)。

 

对于搜索引擎行为而言,这种研究很有实用性:想出如何提高用户体验的方法,弄清人们的注意力集中在哪里,并最终预测他们对买什么感兴趣。但是Waller也从这些数据中得出了有力的社会科学见解,正如上文提到的,大部分搜索都是以休闲为目的,生活方式不同的群体搜索行为大体相似。Waller的研究(以及那些用相同方法的研究)以私人拥有的数据为基础,这种研究意味着即使这些数据对其他研究者可用,但是我们仍不能确切地知道搜索引擎是怎样运转的(因为这是谷歌的“秘密”),这些数据又会怎样引导结论,现在还无从知晓。第二,信息搜寻群体的分类是基于销售公司的类别(“生活群体”):这些很相似,但这不是社会科学家使用的标准类别。

 

商业数据也提出了问题:哪一人群不用谷歌,这会出现选择性偏差吗?比如当澳大利亚人口被用来当作谷歌用户分析的时候,哪些群体被遗漏了?尽管提供了新颖有力的见解,但是这次研究是不可复制的,也不能建立在标准分类的基础上。它只能建立在其他受Waller启发的研究基础上,看这两项研究是否获得相同的结果。正如我们将看到的,这些研究和相似的研究近期引起了关注。Savage和Burrows明确提出了这样一个问题:拥有这种数据的私营公司的研究,能否比学术社会科学家的研究更有说服力?最终,Waller的研究提供的是有关于澳大利亚的人搜索内容和他们感兴趣信息的全新见解,坦采尔的研究则提出了一种前景,即公司和政府可以用这些知识去定位消费者或公民,并以此为基础为他们量身定制服务,甚至将来可能影响和改变人们本来就感兴趣的事情。

 

大规模文本分析

 

用数字资料做文化模式的分析近年来吸引了很多注意力。这里我们可以从收藏的书籍中专注于文本分析,这在其他的研究方法中算侵人历史和文学研究。允许我们拷问(不像Twitter,下面会详细讨论,可能是个新领域)这些研究是否在现有领域和学科中对新颖问题有贡献。这里用的案例是不少于500万册数字化图书的研究(4%的书出版过),通过谷歌图书搜索项目都可以得到。这一研究用了不少于500亿的词汇,几种不同语言的文集(尽管这一项目的网站发现。在过去的200年中,语言为英语的文本,质量是最高的。.这一研究很容易与这里所讲的大数据定义相吻合(数据的大小比先前在这一领成的任何研统都要大,简单地通过凝北以前更大的印刷材料的文集来实现)。

 

在这一案例中,也有新的见解:例如,用图表表示在过去20世纪英语中的“女权主义”和法语中的“女权主义”,这能够提供关于这一现象变化的具有文化意义的线索。例如,这一术语的兴衰是否表明“女权运动”激烈程度?就这一点而言,法语和英语术语步调一致吗?还是节奏不同?这只是几个例子之一。通常来讲,这一研究被称为是“新科学”,因此被称为“文化组学”——声称“文化基困组的结果在人文科学中是新型证据。”Michelet等人的研究遭到了批评(见下文),因为它不是被人文学者着手推进的项目。我们可以把另一个例子“计量方法”从文学研究内部加进来:斯坦福大学的Litlab分析19世纪英国小说的2779个词频(从数字化图书的商业数据库里得来),他发现在过去的一个世纪里,“抽象值词汇”频率下降,“具体的、物质的、明确的、不可估价的”词频上升,这被作者Heuser 和Le-Khac称为“坚硬的种子”。这一研究声称也有新的发现,因为作者假定词汇的这一转变与使用英语国家的社会变迁相联系,特别是与快速的城市化进程紧密相连。

 

“文化组学”为人文科学提供了科学方法,而Litlab的计量方法在文学研究内部支持新的方法:“遥测读数”,并与被称为文学高水平的解释方法“仔细阅读”形成对比。遥测读数”和“文化组学”研究的问题并没有与Waller搜索行为研究重复。事实上,这一研究最有前景的方面之一是其他人会扩大和补充这些研究,把这些与文本的其他部分相比较,与其他关键词的结果相比较等。不像Litlab研究需要获得文学文本的商业数据库,谷歌图书词频统计器允许任何人搜索词频。因此,无论考虑这两个研究的哪一方面,它都是一个严谨的、定量的、假说驱动和钱说生成的、系统的并大规模地使用词汇模式的文化和文学的研究方法。简称计算和科学(某种意义上是指定的)的方法。

 

这些研究也招来了一些批评,比如一种批评的声音指出Heuser 和Le-khac在小说词频和英国文化之间制造联系,是一种太大的跳跃,这中间需要更多的证明和解释。此外,谷歌图书的数据质量问题也被提出来了,可能这里主要考虑的问题是,科学性对文化和文学解读的挑战,这可以被看成是维护纪律的地盘。这是为什么“遥测读数”比“文化组学”激起更大讨论:因为来自Helser 和Le-Khac研究的挑战是从文学研究角度产生的,并被人文科学期刊刊登,这惹恼了文学学者们(如Fish2012)。“文化组学”的研究发表在自然科学期刊上,因此这个研究看上去可能威胁没那么严重。不管怎样,我们能注意到,可以把这个案例的批评看作是恐惧的另一种形式,有人害怕这种对搜索行为的分析成为了人们心中科学的窗口:在文学分析的案例中,有对这种科学简化主义的防御,当然从这个角度能够被看作是防御,从另外一个角度则可能被看成是合理的关注。

 

分析Twitter

 

第三个案例是Twitter在社会科学领域的广泛应用,近年来也呈现出爆炸性增长的趋势,容易获得数据很显然是推动这类应用发展的原因之一。有趣的是,在讨论Twitter研究中,从学术角度又从广大公众角度来讲,有两个典型的反应是“兴奋”和“怀疑”。“兴奋”来自于用Twitter作为研究工具的可能性。这也在Twitter研究的新闻报道中反映出来了。“兴奋”的基础一定程度上是拥有关于信息如何在用户中传播实时(或接近实时)数据的渠道。数据公开以后,只能通过这个媒介唯一的途径追踪,即使有局限性(详见下文),仍是唯一的途径。虽然电子邮件可以用相同的方式研究(尽管内容用与Twitter相同的公共方式通常不易获得),但是电子邮件也包括人际传播,显然用Twitter更容易测量公共信息分享。正如我们看到的,搜索引擎行为对个人信息需求有指示作用,但是在Twitter的案例下,我们可以看到有报道价值的事件新闻传播和信息交换等。尽管如此,正如我们所分析的,Twitter是一个新闻媒介还是人际媒介,这个问题仍然没有答案。

 

第二个Twitter研究的反应是“怀疑”。“Twitter的内容相当孤立,为了方便起见,研究Twitter忽略了Twitter的无代表性特点,而且Twitter内容包括很大一部分无意义的明星八卦”(例如,对于纽约书评的网站上一篇Janmes Gleick所写的“关于Twitter使用研究”的文章。这些反应也有一定的基础:名人确实是吸引追随者最大的群体,这本身也是一个很值得我们研究的现象。对于一些Twitter用户可获得的数据来说,这一观点有误导性(很多研究没有提出这一问题。例如,根据皮尤互联网和美国生活项目的研究,在美国,“截至2012年12月,15%的互联网成年用户用Twitter,8%的人平时每天都会使用Twitter”。Twitter还经常被专业媒体和意见领油使用,显而易见,这一媒介不是边缘的、琐碎的追求。

 

不管怎么样,Twitter都需要放在更大的媒介生态中研究。例如,Twitter引领主流媒体还是追随主流媒体?它是什么类型的媒介?是新闻媒介,还是小型网络内部的信息交换。因为Twitter是众多媒介之一,如果我们把Twitter限定在政治传播中考虑,Twitter怎样能够适应政治传播的整个媒介生态环境?进一步来说,不仅仅就Twitter而言,站在对整个政治新闻有限关注的角度,可能有人会问到媒介一般怎样去塑造政治?

 

当我们从分析Twitter上政治传播的一个特殊话题和一个方面转向最有综合性的宏观层面,即使能捕捉到并分析所有与政治有关推文,不论是分析的还是转发的,这一总体数据仍然是沧海一粟。这些数据自身也有局限性:传播140个字的约束和可能性是什么?发链接和链接内容的约束和可能性是什么(与长文或视频有链接的推文占多少比例)?谁在发推文?谁在跟进、转发这些推文?不是用140个字“回复”或转发,与之前又有什么不同?这些是媒介应用的不同形式吗?然而,正如其他的两个案例,Twitter在某种意义上提供了更强大的工具,建立一种可以改进的方式,把精力集中在分析来自媒介数据的基础上,运用新的方法把政治传播作为一个领域来推进。

 

在这样的背景下,我们可以举出具体的案例:Kwak等人提供“整个Twitter圈和圈内信息扩散的最初的定量研究”。他们“抓取了4170万名用户资料,14.7亿个社会关系,4262个热门话题和1.06亿条推文”(2010),这未必是严格意义上的“大数据”,但这是捕捉到的能够分析“社会关系”的大数据。这些“社会关系”是什么?在这一案例中的社会关系是“14.7亿追随或被追随的直接关系”(2010)。这提出了关于这些直接关系性质的更深层问题:“Twitter是什么,是社交网络还是新闻媒体?”然而研究者只能用狭隘的方式回答:比如他们提供有多少用户,有多少粉丝的数据(极少数用户有很多粉丝,这种幂律分布被发现了)。有多少关系是双向或单向的(在其他发现中,Twitter的双向性少于Flickr),有大约23的用户没有被他们追随的人追随,这让Twitter “成为信息来源,而不是社交网站”。他们他也可以通过粉丝数量进行排名,一些名人(小甜甜布兰妮、奥普拉)、政治家(贝拉克·奥巴马)和新闻媒体(CNN、纽约时报)粉丝的数量都排在前20位。他们也拿Twitter上排名靠前的热门话题和与CNN头条新闻相比,发现在其他的事件中,“CNN在过一半的事件报道上是领先的。但是一些新闻却先在Twitter上爆料”。这里可以回答之前提出的问题,Twitter是仅仅追随其他的新闻媒体(这里指的电视媒体),还是能比其他媒体早一点爆料新闻?答案是模糊的。

 

显而易见,尽管有很精彩的发现,也可以在这个发现的基础上进行提炼,但是它们需要置于特定的情境中加以研究,正如之前讨论的,在更大的媒介生态中间研究:我们需要知道这些关系意味着什么或者Twitter是哪种类型的媒介。如果我们重新考虑政治传播,Twitter不是起到传统广播的作用,因为没有把关人(除了注册服务),但即使Twitter“爆料新闻”,它的新闻制作功能也需要放在媒介约束和可能的环境之中。像以前一样,新技术倾向于添加和补充现有的媒体,如印刷和广播媒体,而不是取代、替换它们。这里,像其他地方一样,估测新技术的社会影响很难,通过识别现有媒体在整个媒介生态内向哪里延伸、怎样延伸来概念化这些影响很重要。这同样适用于作为社交媒介的Twitter(与新闻和政治媒介截然相反),Kwak等人的研究能够告诉我们粉丝的数量,但是尽管Twitter允许用户有庞大的受众群(从这层意义上说,类似广播),我们仍然需要知道多少用户更多地用Twitter以社交网站的方式或者博客的方式向朋友或者线下成员传递“状态更新”。

 

就信息在人群中怎样分享方面,Twitter提供了比先前更综合、更大的数据集。(对于人际传播来说,电子邮件或Facebook可以提供相似的数据集)但是理解这些数据的价值,必须与语境联系起来。更大的挑战是尽管Kwak等人能够分析整个Twitter圈,但是正如Bruns和Liang的文件证明的那样,这种接触整个Twitter圈的途径不再被Twitter允许,但是Twitter公司允许受限制的途径,另外提供收费的数据。进一步而言,免费获得的数据和能买到的数据都有很多问题,Brums 和Liang提供了在有限的范围内,研究者怎样处理这些问题的讨论。因此,与来自谷歌图书和搜索行为的数据一样,在Twitter的案例中,怎样重复对Twitter进行分析,并验证其有效性,这一点尚不清楚,特别是当数据的质量不透明的时候,利用Twitter作为进入人们思想和人际关系的窗口,使Twitter能够被操控的现状令人不安。换句话说,在Twitter上曾出现过“买粉丝”的丑闻。

 

结论

 

这里描述的研究都有一个共同特点:它们都是用强大的新工具,探索人们的想法和透视行为方式。这种研究在社会科学上并不是史无前例,在多种社会科学学科中,定量分析有很长的历史。例如,在销售行业、投票、调查、人口普查方面,不过在文学研究中,定量方法是最近才开始使用的,这里主要的观点是定量和科学性经常被看作是紧密相关的,因此,详细说明“科学”到底有什么内涵很重要。普遍的观点认为科学与认识论的问题有关。更社会学的观点是研究技术、数学处理和普通象形文字的应用在推动现代科学和积累知识上都很关键。他们这样做,部分是因为他们把研究者群体集中在包括特定的工具、数据和对象的研究前沿,随着常用符号语言的应用,这个范围会扩大。

 

在过去社会科学研究领域还没有很多这样的研究技术,我们能够想象录音设备(例如,采访用到的磁带录音机)、计算工具的出现已经改变了这种情况。此外,正如我们所看到的,在大数据领域,大量的平台(搜索引擎、谷歌图书、Twitter)提供了虎大的数据集,在具体现象的范围和规模上也是史无前例的(这里可以回顾一下一开始提供的大数据定义),这在数学上很容易获得,或者换句话说,用数字工具(或者研究技术)来统计分析很容易。一言以藏之,定量和科学性紧密相连的理念在这一案例中是可靠的,大数据为研究技术、推动科学知识发展提供了很好的例证。

 

在社会科学和文化研究中,近10年来主要的理论方法是解释主义者的“社会建构论”,认为(在其他的事物中)数据和知识从来不是简单地“就在那里”,科学永远不会达到绝对客观,可能也不应该努力去苛求客观,换句话说,“真理”是人类社会构造的。因此,科学的和高超的定量方法可以被看作是主导范式的挑战。无论如何,大数据的趋势能被看成社会科学从更定性的、具有解释性的方法向更定量的、具有科学性的方法周期性波动的一部分,这是新技术开启的(大数据也能够被用来作定性分析,但是这不是用庞大的数据集研究的重点)。在社会科学里,这些波动因为工作的确定性低和相互依存性低才发生。文学研究和历史的工作确定性和相互依存性也很低,但是因为定量方法是新颖的,至少对于文学研究是这样的,对于新方法也有更多的防御性。这种防御性也是可以理解的,但也是无根据的。可以预见到遥测读数或定量的方法对于文化和历史研究来说,只是“仔细研读”方法和其他非计算方法的特长和补充。社会科学会继续使用定量和定性方法,有时还将把两种方法联合起来使用,所以,大数据只不过是在为定量和科学的方向转变上开启社会科学的一个入口。

 

新颖的大数据方法打开了探索的新路径:正如我们看到的,不仅仅是定量的跳跃,也是规模、范围、数据来源和计算方法的跳跃;或者说是在涉及特殊现象之前可以被深入研究问题的一次突破。结果却不像人们通常认为的那样,一些人把这些“咀嚼数据”的方法或它的科学性作为研究贫瘠的表现。新数据(正如我们在这里看到的也是大数据)和分析这些数据的方法和技术也能导致新的问题,这些问题必须放在目前的研究前沿评估,这些问题对于我们抓住延伸和推动研究前沿现象的能力是否有贡献(因为大数据新颖性不仅仅建立在工具和数据基础上,也建立在研究对象基础上),这些也应该被评估。

 

大数据的前景与其说是数据的尾巴在摇的问题的狗,不如说是知识的发展,像从前一样带来了新的方向,有好处也有局限性。在全部的三个案例中,不是大数据方法“对与错”的问题,而是这些数据提出了具体的问题,包括它们的科学性、复制性是科学的另一个特点,因为平台研究(谷歌、Twitter)的商业性,这里是有疑问的。或者我们看到数据质量不能被核查的问题(谷歌图书案例),或者种类与现有的研究种类不匹配的问题(据沃勒的研究,用在销售行业的分类方法,与用在研究中的截然相反),或者高业数据的限制使用问题(谷歌搜索行为,Twitler)。

 

这里讨论的大数据也有很多其他的意义,包括隐私性和匿名性,但是受篇幅限制,这里就不再一一赘述。这里探讨了单一的问题,并把这一问题放在本章的题目上,答案也是肯定的!大数据在特定意义上使人文与社会科学更系统、更科学。

 

但是,我们理所当然地考虑科学性的隐含意义,而不是以认识论为理由挑战大数据,不应该因为看到商业公司应用数字数据比学术社会科学家有更多的渠道,就预见学术的社会科学水平相对下降了。应该说,用科学的方法评估这种新型研究的先进性和挑战性很重要,这些新方向在这里补充和延伸现有的研究前沿。学术研究的科学性隐含意义是有限的,它能够通过检查在研究前沿揭开的新现象准确地找到。这些隐含意义可能不“大”,但是随着日后面临的成长和挑战,它们有助于知识的进一步累积。信息化周刊

 

摘自:《另一个地球:互联网+社会》

电子杂志阅读

微信扫一扫

 

 

 

 

 

 

评分
( 0 人投票 0分 )

提交评论(不超过800字)