大数据背景下的统计学新需求


    大数据时代的迅猛发展,在全球范围内掀起了前所未有的浪潮。这股浪潮不仅是对统计学产生了冲击,甚至连政府的统计需求也受到了不小的影响。
    对政府统计而言,大数据采用多种数据收集方式、整合多种数据来源,并采用现代信息技术和架构高速处理及挖掘数据,具有高度应用价值和决策支持功能。一方面,统计调查主体的多元化发展趋势和电子商务等领域的迅速发展,给统计数据的生产方式带来了很大的挑战,不断冲击着政府统计管理体系与统计理念。另一方面,计算机技术、网络技术和空间信息技术的巨大进步,为提高统计生产力提供了广阔空间。海量的电子化、非结构化数据,极大地丰富了统计数据的来源。
    
    种类繁多的“大数据”,正日益成为官方统计部门研究应用的方向。在这样的背景下,探索大数据在政府统计中的应用,把握这一促进政府统计改革发展的机遇,对政府统计有着划时代的意义。尽管近代统计学已经发展了上百年,但是大数据时代的到来依然暴露出了统计学已有方法的缺陷,从抽样调查和设计、数据管理和存储到统计分析和计算,海量数据分析的需求都部分地颠覆了传统的统计方法,这对统计学和统计学家是严峻的挑战。
    来自乔治·华盛顿大学的胡善庆教授依托丰富的政府实践经历,提出了支持现代治理的统计学2.0的概念。相对于统计学2.0,胡善庆教授称近代统计学是1.0时代,其特点是,统计数据来自普查或随机抽样,而非随机收集的数据是无研究价值的。在20世纪这个统计学的黄金时代,统计学是作为一门应用科学而存在的,统计学作为国际语言在政府、社会、经济和科学中帮助解决了许多实际问题。
    以美国为例,美国政府广泛采用随机抽样调查的方式,各行各业统计应用普遍化,小样本亦可产生大量数据,计算机商业化带来了计算方法的创新,统计软件支持数据收集与分析,数据文化深入到美国社会的各个层面。但是在21世纪统计学面临很大挑战,过去是有问题才收集数据,然后建立合适的统计模型来揭示观测到的数据,大数据时代则不同,需要从泥沙俱下的大数据中提炼出有价值的知识和信息,而这些有价值的知识和信息显然是非预期的。
    
    中国目前的很多追踪调查项目都存在耗时过长的问题,中国的城镇化、智慧城市建设、政府简政放权、推进监管、国家统计局四大工程项目等都面临诸多统计上的挑战和需求,海量纵向数据的应用,多种数据来源的整合,快速以及简便的呈现结果,严格保护数据和系统安全,提高精度和可靠性等都是对统计的新要求。无论美国还是中国,使用20世纪的统计方法都不能解决21世纪的治理需求。如果我们可以用同样的效率和成本收集数据,实时分析总体,还需要随机抽样吗?过去80年的数理统计何去何从?
    大数据时代的重要意义在于大部分数据已经数字化,易于批量存储和处理,并且数据来源多样化、快速化,旧数据也可以有新用途。统计学2.0时代包含一个动态的框架,要求有能力提供实时的结果和动态的分析报告,动态的框架可以提供更科学、更高精度、更能跟踪、更快速的随机抽样。
    基于此,胡善庆教授展望了2020年人口信息管理制度的整个框架,提出了统计学创新的一些独到观点,比如,大数据需要统计设计、数据清洗和信息数据提炼才可能有价值或达到信息挖掘的最佳效果,统计学专长于分辨数据质量和抽取最优化信息,国际队伍建设需要专业人才、完善的教育系统、悠长历史、优良信誉和扎实严谨的思维、理论和应用基础等。动态框架不但保留了框架原本的目的,即为普查以及随机抽样提供结构基础,还有其他方面巨大的应用潜力,这完全取决于统计学界的想象力和创新精神。统计学家应该欣然欢迎大数据时代的到来,并把它看作是统计学本身的一个大变革,带动统计学在运用数据研究社会和人类知识的实践中达到一个新的高度。