大数据时代的小数据会消亡吗
苏令银
上海师范大学马克思主义学院 上海师范大学经济伦理研究中心
摘 要:
在过去的几个世纪,学术知识的构建普遍使用小数据并取得了巨大进步,其特征是为回答特定问题而生成的抽样数据。这一成功的战略使自然科学、社会科学和人文学科得以跨越式发展。但这种研究方法目前正受到大数据发展的挑战。在大数据时代的社会科学研究中,大数据的应用仍存在着一定的局限性,面临着突出的挑战和问题。小数据在未来仍将是有价值的,并不会随着大数据时代的到来而消亡,因为它在回答有针对性的问题时具有实用价值。小数据将越来越多地通过开发新的大数据基础设施来汇聚、扩展和链接成大数据,将小数据扩展到大数据基础设施对社会科学研究具有重要意义。为了创建更大的数据集,应该鼓励共享和重新利用小数据,并将它们与大数据、大数据分析方法结合起来。
关键词:
大数据; 小数据; 大数据基础设施; 实用价值; 数据绿洲;
基金: 上海市哲学社会科学基金项目“人工智能发展的伦理规范与法律规制” (2017BZX009); 国家社科基金重大项目“智能革命与人类深度科技化前景的哲学研究” (17ZDA028);
Will Small Data Die Out in the Era of Big Data?
Su Lingyin
Abstract:
Over the past few centuries, the construction of academic knowledge has generally used small data and made great strides, characterized by sampling data generated to answer specific questions.This successful strategy enabled the natural sciences, social sciences and humanities to develop by leaps and bounds.This research method is now being challenged by the development of big data.In the social science research in the era of big data, the application of big data still has some limitations and faces prominent challenges and problems.Small data will still be valuable in the future, and will not die out with the arrival of the era of big data.Because it has practical value in answering targeted questions.Small data will be increasingly gathered, extended and linked into big data through the development of new big data infrastructure, and the significance of expanding small data to big data infrastructure for social science research.In order to create larger data sets, sharing and reuse of small data should be encouraged, and combined with big data and big data analysis methods.
Keyword:
big data; small data; big data infrastructure; use ralue; data oasis;
大数据是当下一个热得发烫的概念范畴,当今时代也被称为“数据为王”的大数据时代。对于海量数据的挖掘和分析预示着很多领域颠覆性变革的到来。自2012年美国政府发布《大数据研究和发展计划》以来,大数据就逐渐受到世界主要国家的高度重视,不少国家和地区都先后发布了有关大数据发展的战略规划。欧盟先后发布了《数据驱动经济战略》和《打造欧洲数据经济》报告,强调大数据是经济增长、就业和社会进步的重要资源。我国也加快了大数据的战略部署,中央、地方陆续出台了160多份大数据相关政策文件,20个省级单位设立了大数据专门机构1。以信息、通信技术 (ICTs) 为主要形式的大数据,其特征是体积大、连续生产、性质多样,尽管它们通常是系统的副产品,而不是用来研究特定现象或过程的。2009年在《科学》上发表的一篇论文使得“计算社会科学”得到提倡。从那时起,通过大数据分析社会科学取得了显著的进步,大数据为研究人类行为提供了前所未有的机会。更有学者极力夸大大数据在社会经济发展和社会治理中的作用,认为大数据预示着人类社会“数据治理时代”的到来和“新计划经济时代”的可能性。大数据的快速增长和影响让人们开始思考大数据是否会导致小数据的消亡?或者基于小数据的研究地位是否会因为其规模、时间和相对成本的限制而降低?正如索耶(Sawyer)所指出的,“资助机构越来越多地将有限的资金和资源投入到数据丰富的领域和大数据分析,而忽略了小数据,这一趋势仍在继续”2。
当前学术界对大数据与小数据在社会科学研究中的地位和作用的认识存在分歧。一方面,绝大多数学者认为在过去的几个世纪学术知识的构建普遍是通过小数据的研究来实现的。也就是说,它是以严格控制的方式产生的数据为基础的研究,采用采样技术限制它们的范围、时间、大小和种类,并试图捕捉和定义它们的误差、偏差、不确定性和来源水平。3因此,小数据的特点是容量一般有限、不连续的收集、种类很少,并且通常是为了回答特定问题而生成的。相比较而言,大数据在社会科学研究中扮演着越来越重要的角色,它成为数字社会的“仪表盘”,为社会科学研究的精准性和科学性提供了可能,传统的以小样本分析和个体为中心的小数据研究已经严重过时了。与此同时,大多数学者对大数据在社会科学研究中的劣势和不足普遍认识不足,过分高估了大数据在社会科学研究中的价值。另一方面,尽管有部分学者看到了大数据时代小数据研究的作用,但对大数据与小数据的差异性、大数据应用于社会科学研究的局限性,以及小数据应用于社会科学研究的独特价值等缺乏详细论证。事实上,与大数据时代形影不离的小数据不容小觑,大数据的天生弱点就是“骄傲的大数据”。正如舍恩伯格指出的,由大数据带来对人的重新认识,不是在阿波罗神庙,而是在小数据网络中“认识你自己”。
在大数据时代,小数据的新价值何在?在新的数据存储和共享基础设施的背景下,小数据在社会科学研究中的应用价值何在?如何将小数据汇集、链接和扩展到大数据基础设施中?也就是说,虽然小数据本身并不具有大数据固有的本体论特征,但它可以与大数据结合,并可以使用大数据手段进行分析。当然,讨论大数据是为了帮助理解小数据发生的变化。针对这些问题,本文提出四个主要论点:首先,尽管大数据和相关分析快速增长,小数据仍将继续蓬勃发展,因为它们在回答特定问题方面有着可靠的记录。其次,在社会科学研究中,大数据的应用仍面临着四个方面的主要挑战。再次,小数据将越来越多地通过新的大数据基础设施进行汇集、链接和扩展,并通过相关的驱动器试图协调与数据标准、格式、元数据和文档相关的小数据,以便通过组合和共享增加它们的价值。最后,将小数据扩展到新的数据科学认识论中,并将它们纳入数据运营商开发的数十亿个新数据市场中,在此过程中也有可能将它们运用到有害的实践中,比如数据规避、社会排序、社会控制和预期治理,而这些都不是它们的本意。小数据会继续成为社会科学研究领域的重要组成部分,它们的地位和作用正在发生改变,大数据时代的小数据并不会消亡。
小数据与大数据的界分
(一)小数据与大数据的本体论差异
对小数据与大数据之间界分的讨论是最近十年才出现的。在2008年之前,人们很少考虑数据是“小”还是“大”,当时所有的数据都被称为“小数据”。由于成本、资源等因素,以及产生、处理、分析和存储数据的困难,有限数量的高质量数据是通过使用抽样框架精心设计的研究产生的,以确保其代表性。在过去十年左右的时间里,小数据发展成为“大数据”的条件得到了补充,大数据具有与小数据非常不同的本体论特征。(参见表1)
表1 小数据与大数据比较
正如基钦(Kitchin)所详细阐述的那样,大数据体量庞大,速度快,类型多样,包罗万象,分辨率精细,关系属性,灵活性,具有可扩展性和可伸缩性。4“大”这个词有点误导人,因为大数据的特征远不止数量。实际上,一些“小”数据集也可能非常大,比如国家人口普查,普查也力求详尽,具有很强的分辨率和相关性。然而,普查数据集往往缺乏速度 (通常每10年进行一次) ,具有多样性 (通常涉及30多个结构化的问题) ,以及灵活性 (一旦进行了人口普查并开始进行管理,就几乎不可能对问题进行调整或添加新问题或删除其他问题,而且字段固定,通常是跨人口普查,以便进行时间序列分析) 。其他小型数据集也由具有大数据特征的有限组合组成。例如,定性数据集 (如访谈记录) 通常规模相对较小 (可能有几十个受访者) ,具有非连续的时间性 (一次性访谈或几个月的序列) ,以及较弱的相关性,虽然它们具有很强的分辨率和灵活性,但它们在多样性 (文本记录) 方面却是有限的。
相比之下,大数据具有所有这些特征,几乎都依赖于它们的形式,关键的特性是快速性和彻底性。大数据的快速增长是由于同时发展了若干关键技术、基础设施,以及它们在日常业务和社会实践空间的迅速嵌入。比如固定互联网和移动互联网,将计算嵌入各种联网的对象、机器和系统;借助数据库设计的进展,社交媒体的新形式、在线交互和交易,以及新型的数据分析设计来处理丰富而非稀缺的数据。实际上,日常生活的实践乃至我们生活的地方现在都被密集的数据基础设施,以及技术集合所加强、监测和管制,例如交通和建筑管理系统、监测和警务系统、政府数据库、客户管理和物流链、财务和支付系统、定位和社交媒体等。在这些社会技术系统中,许多数据生成都是通过算法控制的摄像机、传感器、扫描仪、智能手机等数字设备自动生成的,或者是网络交互的副产品 (如在线交易记录) ,或者是通过社交媒体或众包活动由用户自愿提供。
总的来说,这些系统产生的大量详尽的、动态变化的、索引性的、相互关联的、低成本的每个数据点汇聚成的数据集是灵活的、可扩展的。2011年,“脸书”的活跃用户每月花在该网站上的时间超过了93亿小时,到2012年,“脸书”开始每月处理25亿条内容 (链接、商店、照片、新闻等) 。500兆字节的数据,27亿“喜欢”的动作,每天3亿张照片上传,每一张都伴随着相关的元数据。这些数据与传统的小数据不同,它们是由一系列快速的、连续的、果断的、索引性、关系性的和可伸缩的数据组成的。小数据集在很大程度上是数据沙漠中的数据绿洲,而大数据产生了真正的数据洪流,似乎使研究能够从“数据稀缺到数据丰富;从静态快照到动态展开;从粗糙聚合到高分辨率;从相对简单的假设和模型到更加复杂的模拟和理论”5。
然而,大数据的承诺可能会威胁到小数据的地位,因为大数据往往对学术和商业具有更大的价值和效用。这种框架误解了大数据的本质和小数据的价值。大数据可能力求详尽,但与所有数据一样,它们既是一种表征,又是一种样本。其所捕获的数据是由视图/采样帧的字段、使用的技术和平台、生成数据的情境、使用的数据本体,以及在隐私、数据保护和安全方面的监管环境所决定的。所有的数据都提供了对世界的看法:从某些角度看,数据都是使用特定的工具,而不是全面的、无懈可击的上帝的视角。因此,大数据构成了“一系列局部有序、局部化的总体,它们能够从某些方向而不是从所有方向观察世界”6。大数据无疑力求更加详尽,提供动态的、细粒度的洞察力,但它们的承诺永远无法完全兑现。大数据通常捕获容易捕获的(公开表示的数据、人的行动和行为、事物的运动),以及作为主要任务/输出的副产品(“废气”)的数据。通过大数据处理问题通常意味着重新利用数据,而这些数据并非旨在揭示对某一特定现象的洞见,同时还伴随着其他的问题,例如往往会创建生态谬误。
(二)小数据与大数据的挖掘方法差异
相比之下,小数据的数量和速度可能有限,但它们在科学、国家机构、非政府组织和企业中具有悠久的发展历史,以及既定的方法和分析模式,并产生了有意义答案的记录。小数据可以更精确地量身定做,以回答特定的研究问题,并深入探究人们互动和理解世界的各种不同的、与情境相关的、理性的和非理性的方式和过程。小数据可以聚焦于特定的案例,讲述个人的、微妙的、与情境相关的故事。换言之,小数据试图从狭窄的缝隙中开采“黄金”,而大数据则试图通过露天开采、挖掘和筛选大片土地来开采“黄金”。
有限挖掘和开放挖掘这两种方法对数据质量、保真度和来源都有影响。由于小数据的样本容量有限,保障数据的质量干净、客观和一致,实现数据的真实性——数据准确和忠实所代表的程度,以及建立出处和适合使用的来源文档等是非常重要的;这还包括在限制抽样和方法偏差,以及确保数据在分析或共享之前应尽可能地严格和准确。相反,有些人认为大数据研究不需要相同的数据质量标准、准确性和数据来源,因为数据集的详尽特性消除了抽样偏差,而不仅仅补偿了数据中的任何错误、空白或不一致、保真度的不足。正如迈尔-舍恩伯格和库科尔 (Mayer Schonberger and Cukier) 所指出的,这种观点的论据是“采样误差越小,人们就越能接受测量误差和容错,更多的东西胜过更好的东西”7。当然,这假定大数据的所有使用都将容忍不可避免的结果,而实际上许多大数据应用都需要精度,或者至少需要具有可测量误差参数的数据。
(三)小数据与大数据的效用差异
当然,大数据研究本身也存在一系列的局限性。随着数据挖掘和人工智能的发展,预测技术已经相对成熟,甚至走向广泛的应用。在过去几年中,基于大数据的案例比比皆是,其结果却是喜忧参半。一些失败的大数据项目背后是对大数据寄予了过高的预期,反而忽视了对具有明确问题倾向的小数据的重视。而且,尽管大数据到处存在,但真正有价值、对决策有意义的数据往往并不容易得到,而我们所知的大多数数据都是“垃圾”多于“价值”,这些数据往往是“有数据,无信息”。大数据为人们提供了许多人与人之间交互的数据和信息,但真正的大数据并不是排名和信息的发布,而是从数据中理性找出内在的逻辑关系,并将这些逻辑关系应用于实践。如果不找到事物发展的规律的话,人们的决策往往会与期望相距甚远。舍恩伯格就曾认为,由大数据带来对人的重新认识,不是在阿波罗神庙,而是在小世界网络中去认识你自己。从根本上来说,成就大数据的恰恰是无数努力造就小数据的人。大数据天生还有一些弱点:
首先,大数据本身具有“骄傲性”。所谓的“骄傲的大数据”,即认为大数据什么都能做,而小数据没有用。事实上,大数据的采集远远不如小数据那样“干净”。同时,所有大数据的应用都离不开算法,对大数据应用来说,“唯一不变的就是永恒变化的算法”。在运用大数据开展社会科学研究时,我们发现人的行为本身也会随着大数据技术的发展而变化。因此,仅仅基于大数据之间的相关关系,而忽视内在的逻辑关联,对预测来讲是远远不够的。为此,就需要用大数据去捕获规律,用小数据去匹配场景,从而实现精准预测和智能决策。徐英瑾教授认为:“大数据信息处理机制存在两大弊端:经济成本太高;伦理与政治成本不可承受。正确的解决思路就是放弃对于‘大数据’的迷恋,转而思考如何建立能够在‘小数据’环境下从事临时处理的自动信息处理机制。”8他特别主张大数据和人工智能决策中应该遵循“有限理性”和“节俭性理性”原则。与之类似,朱松纯也提出了“小数据、大任务”范式。9
其次,大数据集产生脏的、有缺陷的、有偏差的数据或低保真度的数据,将带来削弱有效性的分析和结论。从生产方法来看,大数据会受到所有这些问题的影响。数据可能由于仪器错误或由于抽样人口而造成偏差,或者数据可能通过虚假账户或黑客手段被欺骗或伪造。至于是否忠诚,社交媒体上的帖子在多大程度上真正代表了人们的观点,以及人们应该如何对待他们的信仰也存在疑问。正如曼诺维奇(Manovich)所警告的,“人们的帖子、推特、上传的照片、评论和其他类型的在线参与都不是它们自己的透明窗口;相反,它们往往是被精心策划和系统管理的”10。
再次,现实生活中人们对小数据和大数据都有访问权限的问题。由学术机构、公共机构、非政府组织制作的小数据,在收费或许可下可以获得。除了卫星图像、国家安全和治安等少数外,类似公共机构和学术数据倾向于越来越开放。而大数据主要是由私营部门提供,访问通常被限制在付费墙和专有许可的后面,以确保竞争优势和通过销售或许可来获得收入。的确,只有少数的实体分享了海量数据,而移动互联网运营商、应用程序开发人员、社交媒体提供商、金融机构、零售连锁店、监测和安全公司等,则没有义务通过他们的操作而自由分享其收集的数据。在某些情况下,可以通过应用程序编程接口向研究人员或公众提供有限的数据。例如,推特用户允许少数公司访问它的“消防水带”(数据流),用于商业目的的付费使用,但是研究人员被限制于“花园软管”(10%的公众推文)、“鸡尾酒”(1%的公众推文)或不同的内容子集(“白名单”账户),所有情况都不包括私人和受保护的推特数据。人们担忧的是,私人拥有和商业销售的大数据所能提供的洞见将仅限于商业领域,或者可能只向一群享有特权的学术研究人员开放,他们的发现无法被复制或验证。
鉴于大数据的这些局限性和小数据的优势,小数据将继续成为研究领域的重要组成部分。当然,这样的数据也将越来越多地受到压力。利用新的归档技术和数字数据比例增大的基础设施,结合其他小型和大型数据,更多的价值和洞察力可以从中提取并通过大数据分析得以应用。
社会科学研究中大数据应用的局限性
大数据为大规模了解人类行为提供了前所未有的机会。它越来越多地用于社会科学研究,揭示个体差异和群体动态。但在大数据研究中仍然存在一些应用的局限性需要引起重视,即数据驱动方法导致“测不准”、数据测量的误差影响测量效度、数据分析维度的单一性难以反映研究对象的复杂性、数据集成的有限性难以大幅提高研究结论的可靠性。这些局限性代表了社会科学家在使用大数据进行研究时经常面临的突出问题。
(一)数据驱动方法导致“测不准”
传统上,社会科学研究人员使用理论驱动的方法来解释现象,而不是简单地描述它们 (如发生了什么事) 。理论的焦点在于增加人们对心理过程中的因果关系和社会现象的潜在机制的理解。然而,随着大数据研究的出现,计算机科学家经常使用数据驱动的方法,如机器学习。社会科学家也开始采用自下而上的数据驱动方法,倾向于预测而不是解释。例如,施瓦茨(Schwartz)等人提出了一种开放词汇差异语言分析 (DLA) 方法,通过“脸书”状态更新来预测个性。克森斯基(Kosinski)使用Facebook Like开发了人格特征的预测模型。这些研究依靠机器学习算法在模型中选择变量来提高预测精度,但常常导致“测不准”的结果。吉森伯格(Ginsberg)等利用机器学习从5000万条查询中选择45条谷歌搜索词并开发出一种预测模型,能够比官方疾病控制与预防机构更快地预测流感大流行。然而,研究人员后来发现,该模型完全忽略了非季节性流感,表明它预测的是季节性,而不是实际的流感趋势。大数据使用的失败强调了运用理论指导研究设计的重要性。如果根据理论相关性选择预测因子,那么季节性将被包括在模型中,因为众所周知,季节性与流感大流行密切相关。
将理论相关的变量作为预测变量的实践在社会科学研究中已经确立,不应被自下而上的数据驱动方法所取代或损害。相反,与传统的实验室研究相比,大数据的异质性使研究人员能够包含更多理论上相关的变量,如时间、位置或人口密度。例如,当使用社交媒体数据来预测个体差异时,控制变量是很重要的,因为已经发现许多心理特征是地理上聚集在一起的。虽然建立具有理论相关性变量的模型可能会导致预测精度低于使用机器学习开发的模型,但它可以对感兴趣的现象提供有意义的解释,避免模型过于拟合。
(二)数据测量的误差影响测量效度
传统的社会科学方法允许研究人员仔细设计他们的研究,并确定如何测量感兴趣的变量。然而,在大数据科学中,研究人员往往需要使用社交媒体或移动通信公司等收集的二手数据。其中有三个问题导致测量误差,并最终影响测量效度。
首先,大数据通常包含大量的噪音。研究人员需要仔细检查这些数据,并采取多项措施消除这些噪音。例如,社交媒体数据集通常包含非个人账户,如垃圾邮件发送者或新闻机构。在研究个人的语言风格时,研究人员需要删除这些非个人账户,因为它们产生的内容比一般用户多得多,而且会显著影响结果。研究人员可以使用诸如垃圾邮件检测器之类的软件程序来识别这些账户,或者使用传统的统计方法来查找异常值。删除这些账户后,需要删除任何非用户编写的文本,因为它们不反映用户的语言风格。虽然上述步骤可以减少数据中的关键噪声源,但数据中仍可能存在未预料到的噪声。
其次,用于处理数据的软件工具可能会导致测量误差。例如,语言探究和字数统计 (LIWC) 是一种广泛使用的软件工具,它通过计算预先定义类别中的字数频率来测量写作样本的心理过程。LIWC分类是根据心理测量量表开发的,并经独立评委验证。然而,LIWC仍然可能产生不准确的评估,从而导致对数据的不准确解释。计算机生成的编码和自报告的测量之间的不一致性,则可能是软件本身产生的容易出错的结果。
再次,大数据人员需要使用他们感兴趣的变量主体。然而,这些主体如何准确地表示其相应的变量还不清楚。例如,社交媒体上的情绪表达往往被认为是用户日常生活中实际情绪状态的代表。但研究表明,用户的网络情绪表达受印象管理顾虑和社交网络结构的影响。与现实生活相比,他们在“脸书”上选择性地表达更多的积极情绪,表现出更好的情绪幸福感。因此,用户在网络上的情绪表达可能不是他们实际情绪状态的频率和效价的可靠衡量,需要实证研究来确定使用在线情绪表达作为离线情绪状态测量的有效性。
这三个问题在大数据研究中不可避免地会导致测量误差,并最终影响到数据测量的效度。它们对大数据方法论和理论提出了重大挑战。当大数据的发现与现有理论不一致时,研究人员很难确定是测量误差还是理论本身存在问题。
(三)数据分析维度的单一性难以反映研究对象的复杂性
在社会心理学研究中,大数据与传统数据有着相似的结构,数据往往具有纵向性和层次性,因为它们反映了所研究的实质性现象的时序性和多层次性,这为研究个人、组织和环境之间的交互作用提供了很好的机会。然而,目前的大数据研究主要集中在个体层面的横断面研究。例如,多数研究使用大数据来检验个体的时间取向如何与人格和幸福感相关,政治取向如何影响主观幸福感。少数研究通过纵向分析来检验心理过程的变化。例如,关于员工的大数据是分层的,因为每个员工都属于公司的一个团队。为了了解员工情绪对公司绩效的影响,可以进行多层次的纵向分析。此外,随着时间的推移,固有的跨级别构造可能会发生变化,例如人员-群组匹配,这是一个涉及两个级别的复合构造。更重要的是,随时间变化的不同方面应该被概念化和评估。例如,任何观察到的变量随时间变化都需要分解为焦点变量中的随机波动和系统变化。当系统随时间变化时,变量的轨迹可能具有时间变化的相关性,可能会影响其他变量或受其他变量轨迹的影响,因此我们需要多变量模型来指定和测试连接不同焦点变量变化的关系。最后,在随时间变化的一个或多个方面,可能存在组间差异,这些组可能是观察到的组如性别和文化组,或者是未观察到的组,可以通过时间变化的不同特征加以区分。要对变化的纵向评价作出充分的实质性推论,就必须从概念和方法两个方面理解上述复杂性和随时间变化的各个方面。
(四)数据集成的有限性难以大幅提高研究结论的可靠性
虽然现有的大数据研究往往会考察大量的数据,但很少有研究获得并分析了全部数据。研究人员应该尽可能多地分析数据,因为基于子集或特定类型数据的结论可能与来自完整数据的结论不同。目前,获取和处理完整数据涉及三个方面的主要挑战,并导致数据集成的有限性,从而使得要大幅度提高研究结论的可靠性是难以实现的。
首先,由于隐私和专有的考虑,组织或公司很少分享它们的原始数据。研究人员通常需要依赖来自单个数据源的数据子集。这就大大限制了研究结果的生态有效性。
其次,合并来自多个平台的数据非常重要,因为一个人经常使用多个平台,并且在每个平台上显示不同的行为。例如,一个人可能在Facebook上表示“正在恋爱”,但在Instagram上保持沉默。然而,由于很难匹配来自不同平台的用户,现有的研究主要依靠单一的数据源(如Facebook或Twitter)。由于每个平台都有自己独特的特性,这使得研究结果不太容易普遍化。例如,Facebook和谷歌上的自动完成机制可能工作方式不同,导致用户输入的频率不同;消息位置的不同导致了不同的用户行为;用户的分享行为基于与平台相关的文化规范而不同。
再次,大数据包括各种各样的信息,以及用户生成的内容和“数字痕迹”。每种数据类型都包含独特的行为线索。例如,文本标志着语言风格,照片包含面部表情,视频显示手势和身体动作。这些行为线索反映了心理特征的不同方面。又如,对比推特和自拍照中的个性表达,外向性并不是通过自拍照中的线索来反映的,而是通过推特中积极情绪和社交相关词汇的频率来反映的。责任心则表现在自拍照中没有私密的位置信息,与推特上的任何线索无关。因此,要对人类行为有一个全面的认识,研究需要结合多种数据类型。多种数据类型的使用使得研究人员能够从不同的角度审视行为模式,并提高研究结果的可靠性。但它也带来了重大的技术挑战,因为研究人员需要在数据收集和处理中使用广泛的软件工具和技术。
社会科学研究中小数据应用的价值维度
(一)小数据是大数据基础设施架构的基础
大量数据被收集在一起,储存了许多有记录的历史,这种做法包含非正式的和正式的。前者仅由收集数据和存储数据组成,后者则由一组策展实践和制度结构组成,旨在确保数据为后来者而保存。前者为数据持有或备份,而后者是数据归档。数据归档是一种正式的数据集合,它们被积极地组织、管理和记录,并伴随着适当的元数据保存、访问和发现被集成到技术系统和机构中,以开展持续性地测试。11数据档案明显地寻求长期的努力,保存完整的记录集——数据、元数据和相关的文件——以备将来再次利用。对数据进行数字化存储并在数据库中对其进行结构化的能力,从根本上改变了可存储、有效处理和查询的数据量,并使大量的数字财产和档案得以创建。数据基础设施是跨网络技术存储、共享和使用数据的数字化手段。特别是在过去20多年中,在开发和促进数据访问、发现基础设施方面人们做了相当大的努力,采取了许多形式:目录、指南、门户、股票交易所、存储库等。大数据基础设施不仅是数字档案馆和存储库的集合,它由一套专用的网络技术、共享服务、分析工具组成,共享政策等链接并在一起进行分析。通过数据集的结合,知识构建的累积性和速度大大加快。
这些大数据基础设施中所形成的大数据,都是基于小数据架构的。大数据基础设施的数据来源无一例外地来自其门户网站、数据通信公司、社交媒体和个体用户所留下的“数据痕迹”。这些数据构成了大数据基础设施中的“元数据和主数据”。在过去的30多年中,诸如欧盟、各国政府、研究机构、慈善机构、公民社会组织等非政府组织,在资助各种数据和网络大数据基础设施倡议方面都进行了广泛的投资,形成了一些重要的有代表性的大数据基础设施。比如空间大数据基础设施、英国数据档案、非营利性和慈善领域的数据基础设施、开放型大数据基础设施等,在其门户中发现的大数据都是基于小数据架构的。
(二)小数据对大数据时代社会科学研究的影响
1.小数据扩展到大数据基础设施,影响了社会科学的研究方法
虽然将小数据扩展到大数据基础设施并不能必然会产生大数据,从数据上看,这些数据仍然缺乏速度和动力,这使得它们成为更大的数据,比如更广泛的、相互关联的、变化的和灵活的数据。这产生了两个效果:首先,它将小型数据扩展到新的认识论,尤其是新形式的大数据分析。其次,它促进小数据与大数据结合,产生更复杂、相互关联和广泛的大数据基础设施,这些基础设施目前正在推动商业数据经纪业务的快速增长,包括迅速发展的地理人口统计行业 (也称为定位目标营销工具) 。这两者都对如何使用小数据,以及提出关于大数据基础设施的创建和使用的规范性问题产生了影响。
传统的小数据分析方法主要是设计用来从稀缺的、静态的、干净的和弱的关系数据集中提取见解,这些数据集已经被采样,遵循严格的假设 (如独立性、平稳性) ,并在头脑中产生和分析特定的问题。大数据的挑战是应对丰富性和彻底性 (包括相当大数量的数据效用和价值) 、及时性和不确定性、高关联性、半结构化或非结构化内容,这一事实是生成时并没有考虑具体问题或其他活动的副产品。解决方案是新的数据分析,利用算法和计算力来处理和提供对数据集的洞察,而这些数据集将会耗费很多时间来分析其他数据。这种数据分析方法扩大了现有的统计方法,如回归、模型构建、数据可视化和映射等,使用新的机器学习和视觉分析技术,从数据中计算挖掘意义并检测、分类和分割有意义的模式、关系、关联和变量之间的趋势,以及构建预测、模拟和优化模型。这些数据分析同样可以应用于规模较小的数据以提取和建模。
数据分析反映了一种特殊的理解世界的方式,它们是特定认识论的表现。有人认为它们是经验主义的一种新形式,使数据能够在没有理论的情况下为自己说话。例如,安德森 (Anderson)认为“数据泛滥已经使科学方法过时了”12。也就是说,人们可以分析数据而不用假设它可能显示什么。可以把这些数据放入世界上所见过的最大的计算集群中,让统计算法找到科学无法用相关性取代因果关系的模式,而科学即使没有连贯的模型、统一的理论,或者任何真正的机械论解释也能取得进步。换句话说,与其测试数据集内是否存在某些假设的模式或关系,算法还将利用大数据来发现数据之间有意义的关联,而不受假设的指导。在这一认识论观点中,规模较小的数据是通过纯粹的归纳方法来理解的。
相比之下,数据驱动的科学试图坚持科学方法的原则,但使用了溯因、归纳和演绎方法的结合来促进对一种现象的理解。与传统的理论演绎方法不同的是,它试图产生来自数据的假设和见解,而不是“从理论中诞生”13。因此,它试图将归纳整合到由外部引导的研究设计的初始阶段中 (基于既定理论的逻辑推理) ,尽管通过归纳的解释并不是预期的终点。在这里,通过初始数据分析确定的模式、关联和趋势,并用来识别潜在的值得进一步检验的假设。因此,在数据驱动科学中采用的认识论策略,是使用指导知识发现技术来识别传统的“理论驱动科学”可能无法发现的有价值的洞见,然后进一步研究这些见解。
对于社会科学和人文学科,大数据基础设施、新数据分析和相关的认识论提供了改变研究领域的潜力。如前所述,大数据基础结构提供对大量数据的访问,以供重用和分析。这些数据可以新的方式结合在一起,使用数据分析研究它们之间的关系和关联。对于结构化数据,可以生成更精细、更复杂的模型,并在大量的组、设置和场景中测试这些模型的准确性。这包括生产更加精细和强大的空间模型。非结构化数据的数量正在迅速增加,包括获取新的信息来源(如社交媒体)和迄今为止难以获取的信息来源,如数以百万的书籍、文件、报纸、照片、艺术品和实物。这些数据为计算能力打开了大门,包括处理、搜索、链接、共享和分析数据的复杂工具,这些工具试图补充和增强现有的人文方法以及传统的解释和理论构建形式,同时,利用新的数据分析提供新的手段来理解这些数据。一般来说,人文科学研究是通过仔细阅读一些资料而取得进展的,然而,新的机器学习技术意味着,只有在“阅读机器”的帮助下,成千上万的资源才可以被挖掘、绘制出来,并找到个人难以发现的模式和见解。
这些方法并非没有受到批评,批评者认为数据分析是机械性的、还原主义的、功能主义的和狭隘的,将不同的个体和复杂的、多维的社会结构简化为仅仅是数据节点,因此培养了弱的、表面的分析,而不是深刻的洞察力;为了规模、自动化和广度,牺牲了具体性、语境和深度。事实上,布鲁克斯(Brooks)认为,“数据分析与社会作斗争 (人不是理性的,行为也不是可预测的,而人类系统极其复杂,相互矛盾) 并有了语境 (数据在很大程度上减少了社会、政治、经济和历史语境) ;它创建了更大的‘混乱线团’ (包含更多虚假的相关性,使得很难识别线头) ;难以解决大问题 (尤其是社会和经济问题) ;它偏爱模型胜过现实结论 (注重预测趋势) 和模糊的价值观(数据生产者和分析它们及预测目标的人)”14。关于新分析和认识论的价值和恰当性,以及它们在小型数据上应用的争论,似乎在可预见的未来将继续下去。
2.小数据与大数据结合,影响社会科学研究的规范性
首先,规模较小的数据作为一种商品也会增值,尤其是当它们可以与大数据相结合的时候。与学术的、以研究为导向的或政府的数据基础设施不同,数据代理商 (有时称为数据整合者、聚合者或分销商) 将数据收集到私有基础设施中,并以营利为基础进行转售,它们从公共和私有资源中获取数据。例如,从公共部门有关个人和群体来源收集(如群体定位)健康、教育、犯罪、房地产、旅游、环境等与私营部门相关的数据,或捕获在零售、金融、物流、商业智能、私人安保、政治投票、交通、媒体等领域的数据。跨域链接数据的潜力很大,据荷兰数据保护管理局估计,平均每个荷兰公民都被包含在250~500个数据库中,其中最多有1000个数据库包含了更多社交活跃的人。最近,数据经纪人将这些数据与本地化 (如智能手机应用) 和社交媒体(如推特和“脸书”)的元数据和内容结合起来。例如,“脸书”正与大型数据经纪人和营销人员合作,以便将其近十亿用户的个人资料、网络和上传内容(他们的喜好、评论、照片、视频等)与非“脸书”的购买和行为数据合并在一起。这些相互关联的大数据基础设施将大量个人数据绑定在一起,用于构建一套派生数据产品,其中通过集成和数据分析增加价值,创建个人、群体和位置的概要,预测人们在不同环境下可能做什么。一般来说,个人资料用于微目标广告和小众市场营销活动,评估这些目标可能如何表现,并被推入特定的响应(如选择和购买特定的项目),评估信用价值和社会分类(确定一个人是否可能获得服务或设定个性化定价),提供详细的商业分析,同时减少风险投资造成的浪费和损失。例如,艾克西姆(Acxiom)试图将离线、在线和移动数据结合起来,创建消费者的“360度视图”。使用这些数据创建详细的概要文件和强大的预测模型,并将其出售给相关方。15又如,地理人口统计学分割是一种数据分析过程,它可以将小数据和大数据结合起来,以便在一个特定的地理分析单元 (通常是邮政编码地理学) 创建基于数量的人群分类系统。一旦分类系统被开发出来,主要是通过小的数据输入,像购买历史这样使用邮政编码作为唯一标识的大数据,就可以与这些分类相匹配,以评估消费模式和细化分组。
小数据的扩展与大数据的融合以及数据分析对公民、服务和机会都有深远的影响。有些人担心的是,一种“数据决定论”的形式正在实践中生成,个人不是根据他们所做的事情进行剖析和判断,而是根据他们对未来可能做的事情的预测。一个新的概率市场正在兴起——尽管赌博行业的赔率编译器和证券市场已经存在一段时间——这构成了概率思维时代的一个新阶段,一个由私营部门和监视机构领导的新类型的人和新类型的地方,主要目的是营销产品和安全。此外,有人担心规模较小的数据和大数据基础设施在多大程度上促进了数据监视 (通过处理和分析数据记录而实施的监视) ,侵犯隐私和其他人权,影响获得私人健康保险及其费率,针对数据被盗和被犯罪利用提出了重要的数据安全问题,并允许控制渐变,比如为一个目的生成的数据被用于另一个目的。公民可能不同意产生数据的实体,对于如何使用他们自己的数据更是感到忧虑。因此,尽管扩展小数据确实有很多好处,但它们也会产生差异和负面影响。如果要使大数据基础设施的效益最大化,同时使其更有害的影响最小化,那么就需要对大数据基础设施的生产进行紧急响应性考虑,出台一些基本的规范。
大数据时代小数据的未来
人们正在目睹数据方面的快速变化:不仅一种新的数据形式以大数据的形式出现,而且传统的小数据也通过新的大数据基础设施不断发展,这些大数据基础设施使它们能够以新的方式进行扩展和分析。本文比较分析了小数据和大数据,研究了小数据是如何被通过缩放而融合到大数据中并使大数据分析成为可能,主要结论有四:
第一,尽管大数据和相关的挖掘分析快速增长,小数据仍将继续成为研究领域的重要组成部分。在不久的将来,不太可能会出现大数据研究取代小数据的范式转变,小数据和大数据将相互补充,因为它可以更有效地控制研究设计并回答特定的、有针对性的问题。因此,与其将研究资金引向那些能够获得大量数据的项目,倒不如希望它们能从本质上产生有用的见解,集中回答某些关键问题,无论这些问题是用小数据还是用大数据处理的。
第二,大数据越来越多地应用于社会科学研究,揭示个体差异和群体动态。但在大数据研究中仍然存在数据驱动方法导致“测不准”、数据测量的误差影响测量效度、数据分析维度的单一性难以反映研究对象的复杂性、数据集成的有限性难以大幅提高研究结论的可靠性等局限,需要引起充分重视。
第三,随着大数据基础设施的发展,小数据环境正在发生变化。当小数据可被再次利用并与其他数据集结合时,会获得实用价值,并对社会科学研究产生深刻影响。因此,很多工作都是针对构建这样的基础设施,以及在数据标准、格式、元数据和文档方面协调小数据,以确保它们与系统的兼容性,最大限度地提高可发现性,并促进数据集的链接。随着研究资助者寻求通过新知识和创新获得最大的投资回报,协调、共享和再次利用小数据的压力将继续增加。
第四,将小数据扩展成数据次结构有三个后果:一是通过池化和链接小数据来创建更大的、相互关联的数据集,小数据可以通过大数据进行分析。因此,小数据暴露在数据科学的新认识论中,促进了数字人文和计算社会科学等新方法的发展。二是小数据更容易与大数据结合,从而产生更多样化的衍生数据,使分析更广泛和深入。数据环境的重新配置促进了数据代理和新数据产品的快速增长,包括详细的大数据挖掘分析。三是小数据的规模,以及它与大数据及大数据分析的结合,产生了一系列潜在的有害影响,如数据监督、社会分选、控制蔓延和预期治理,这些影响侵犯隐私与社会自由,并对个人生活产生结构性影响。因此,对小数据的扩展提出了关于如何管理和利用大数据的规范性问题。人们几乎还没有开始审查这些后果,事态的发展先于批判性和规范性,以及政治、政策和法律的反应。可见,小数据将继续成为科学研究工作的重要组成部分,大数据时代的小数据不会消亡,它仍然是“数据沙漠”中的“绿洲”。与此同时,它们正在采取新的形式,对人们如何看待和利用这些数据产生影响。人们已经初步尝试了一些转变的细节,但是需要进一步的批判性反思和规范性思维来理解所发生的变化及其影响。
注释
1 相关数据引自工信部信息化与软件服务业司副司长李冠宇于2018年6月27日在江苏省经信委主办的江苏省大数据和新一代软件产业发展推进会上的发言。
2 Kitchin, R., “Big Data and Human Geography:Opportunities, Challenges and Risks”, Dialogues in Human Geography, vol.79, no.1, 2013, p.1.
3 Miller, H.J., “The Data Avalancheis Here.Shouldn’t Webe Digging?”Journal of Regional Science, vol.50, no.1, 2010, p.181-201.
4 Kitchin, R., “Big Dataand Human Geography:Opportunities, Challenges and Risks”, p.3, p.12.
5 Kitchin, R., “Big Dataand Human Geography:Opportunities, Challenges and Risks”, p.3, p.12.
6 Amin, A., &Thrift, N., Cities:Reimagining the Urban, London:Polity, 2002, p.92.
7 Mayer Schonberger, V., &Cukier, K., Big Data:A Revolution that Will Trans form How We Live, Work and Think, Boston:Eamon Dolan/Houghton Mifflin Harcourt, 2013, p.392.
8 徐英瑾:《唯物论者何以言规范》, 上海:上海人民出版社, 2017年, 第373—389页。
9 朱松纯:《正本清源——浅谈人工智能:现状、任务、框架与统一》, https://mp.Weixin.qq.com/s/-wSYLu-XvOrsST8_KEUa-Q, 2017.11.2.
10 Manovich, L., Trending:The Promises and the Challenges of Big Social Data, http://www.manovich.net/DOCS/Manovich_trending_paper.pdf, 2011, p.6-9.
11 Lauriault, T.P., Hackett, Y., &Kennedy, E., Geospatial Data Preservation Primer, Arthurs and Low:Hickling, 2013, p.336.
12 Anderson, C., The End of Theory:The Data Deluge Makes the Scientific Method Obsolete.Wired, June23, 2008, http://www.wired.com/science/discoveries/magazine/16-07/pb_theory.
13 Kelling, S., Hochachka, W., Fink, D., Riedewald, M., Caruana, R., Ballard, G., “Data-Intensive Science:A New Paradigm for Biodiversity Studies”, Bio Science, vol.59, no.7, 2009, p.613.
14 Brooks, D., “What Data Can’t Do”, New York Times, http://www.nytimes.com/2013/02/19/opinion/brookswhat-data-cant-do.html.
15 Singer, N., “YouforSale:Mapping, and Sharing, theConsumerGenome”, NewYorkTimes, http://www.nytimes.com/2012/06/17/technology/acxiom-thequiet-giantof-consumerdatabasemarketing.html.