
大数据已经渗透到当今每一个行业和业务领域,被推向大数据前线的,不仅仅是以商业为目的的众多企业,同时还有以公共服务为目的的政府机构。与企业类似,政府在履行其职责——管理社会的过程中,需要积极应对大数据带来的影响和挑战,制定切实可行的策略和措施,推动统计生产力发展和统计生产方式变革。
一、“大数据”的概念、主要数据源和特点
1、概念
大数据或称为巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。早在1980年,著名未来学家阿法文.托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。徐子沛在《大数据》一书中,将其定义为:指一般的软件工具难以捕捉、管理和分析的大容量数据,一般以“太字节”为单位。“大数据”之“大”,并不仅仅在于“容量之大”,更大的意义在于:通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。不过,大约到2009年,“大数据”才成为互联网上为人熟知的热词
2、主要数据源
一是来自机器配备的连续测量和报告运行情况装置的传感器数据源。世界各地安装了许多复杂的机器和发动机,例如,飞机、火车、军车、建筑设备、钻孔设备等。从飞机发动机到坦克等各种机器上使用嵌入式传感器,目标是以秒或毫秒为单位来监控设备的状态;车载信息服务数据源。通过汽车内置的传感器和黑盒来收集和掌握车辆的相关信息,可以监测车速、行驶里程以及汽车是否安装了紧急制动系统。车载信息服务数据能够帮助保险公司更好的理解客户的风险等级,并设置合理的保险费率;RFID数据源。无线射频标签,即RFID标签,是安装在装运托盘或产品外包装上的一种微型标签。RFID标签上有一个唯一的序列号,这个序列号与UPC类似的通用产品标识码不同
二是来自计算机产生的网络数据源。也是使用最广泛、认可度最高的大数据源。主要是来自文本数据源,比如电子邮件、短信、微博、社交媒体网站的帖子、即时通信、实时会议以及可以转成文本的录音信息。文本数据是现在结构化程度最低的,也是最大的数据源。表现为通过因特网即时通讯,相应的服务有QQ、MSN、微信等;通过因特网交流、分享信息等;通过因特网进行贸易,相应的服务有B2B、C2C、B2C等;通过因特网搜索查询信息,也是最传统最广的数据来源。
三是电信业及其他行业的社交网络数据源。表现为通过电话、短信等形式产生的社交网络数据。社交网络数据源,与传统数据相比,本身就是一种大数据源,即使从很多方面来看,它更像是一种分析方法学。其中的原因在于,执行社交网络分析的过程需要处理已经无比庞大的数据集,此外,还要使用行之有效的方法将处理规模提升几个数量级。
四是来自音频、视频和符号数据源。这些数据结构松散,数量巨大,很难从中挖掘有意义的结论和有用的信息。遥测数据是视频游戏产业的一个术语,用来描述捕捉游戏活动的状况。遥测数据收集的是玩家在游戏中的活动情况。遥测数据的收集对象多数情况是在线游戏而非掌上游戏。
3、特点
一是数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
二是数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
三是价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
四是处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
二、“大数据”对政府统计信息利用带来新的变革
1、将零散的信息串联起来形成大数据大共享
由于受到传统信息管理模式的影响以及行政体制的制约,加上部门利益、技术手段等因素,不能完全建立政府部门之间的数据共享机制。散落在各部门之间的宝贵信息资源不能实现充分共享,形成“信息孤岛”。大数据将打破政府各部门、政府与民众之间的“信息孤岛”现状,实现数据共享,跨系统、跨平台、跨数据结构的政府综合信息处理平台将在技术上使政府内部纵向、横向部门得以流畅协同;数据获取、处理及分析响应时间大幅缩短,提高工作效率,降低政府开支;数据产品创新应用将会不断涌现,政府信息的经济价值将被充分发掘。
2、将“死数据”变成为“活信息”
在信息化、网络化技术迅猛发展的今天,整个社会无时不在产生着海量的生产、交易、价格等电子化信息,形成了许许多多的大数据,这就为我们利用现代信息技术搜寻整理信息、分析加工数据,补充和部分替代传统工作方式提供了战略机遇和物质基础。然而随着信息化建设的推进,我们也看到在政府部门大量数据从纸上被转移到电脑后,很多数据就“沉睡”在电脑里,很少被派上用场。面对“有数据的人不分析,想分析的人没数据”这种情况,不仅要将尘封的数据调动起来,还要主动将部门信息“请进门”。建立政府级别的数据共享平台从组织保障、数据采集、数据共享、数据应用等方面入手,拓宽数据分析的视角。充分将信息与业务相融合,汇聚数据分析与部门业务的两股优势,从而扭转了管业务的不占有数据、不具备数据分析能力,管数据的不具备业务分析能力的局面,将“死数据”变成为“活信息”,扩大综合数据管理平台的成果运用。
3、使政府统计数据由“宏观”走向“微观”
“统计分析不能就数据论数据,还要追根求源,深入分析引起数据变化背后的原因。要做到这一点,就要求我们既要注重宏观分析,也要注重微观分析。”通过收集各个部门已掌握的大量关键数据,使以非结构化和半结构化数据为主的海量微观数据转换为结构化的大数据,并使“盲数据”发挥出活力。而从微观数据中提取出的规则更为大数据辅助决策提供有力支持。以人机学习、数据挖掘为基础的高级数据分析技术,将促进政府统计有机会和条件在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,由对“宏观”的把握,转变为对“微观”的运用。
三、“大数据”促使政府统计向现代化服务型统计转变
1、依托统计“四大工程”,构建新的指标体系。
以企业一套表为核心的“四大工程”建设是对统计数据生产方式的重大变革。传统的统计指标是根据研究目的和研究对象的特点而设计的,是可以计算量化的结构性指标;而大数据的生产主体不一、来源日趋多元,在形式和内容上与传统指标大相径庭。大数据背景要求统计机构的各项工作要必须走专业化道路,对传统统计体系中不具现实意义的指标予以废除,认真考量不同大数据的来源、类型和标准,并与现行的统计标准和指标解释进行比对研究,统一范围、内涵、口径和定义,设计出一整套能够适合大数据特点的统计指标体系。加强统计标准、指标的统一,工作流程的统一和工作手段的统一,为大数据的应用起步打下良好基础。
2、丰富载体,完善采集方式。大数据时代,数据来源渠道更为广泛、数据产生方式更为多样,依靠原有的力量和条件开展采集工作已不适应形势的需要。一是大数据促使数据采集条件发生了质的根本变化,调查的设计也由此改变,建立在大数据技术和后台软件支撑基础上的调查设计通过数据挖掘与提炼来提升数据的应用价值。二是可以积极运用先进的技术,采用源头测量方法(如GPS定位测量、超市收银管理系统、ETC电子收费系统),取得信息技术记录下的原始数据,提高数据采集的效率和精度。三是可以通过积极培育和发展统计调查中介机构,建立中介机构的法律准入机制,充分运用社会力量参与统计工作,积极对现有的统计数据进行第三方印证、评估,从而提高统计数据的质量和可信度。
3、改进方法,提升调查手段。传统的调查是通过结构化的报表和统一的计量方式,将调查对象的意识、行为和结果转化为可用的数据,这其中需要调查者长期认真的配合和参与,而且还要耗费大量的人力、物力和财力。而运用大数据的特点开展网上调查、分析应用等,如进行网上社情民意调查、电子商务产品交易统计等,将调查表通过电子邮件传给被调查者,被调查者通过网络反馈有关信息,如有疑问通过网络进行查询,这样既能够切实减轻基层负担,提高工作效率,又可以避免人为因素的干扰,提升数据质量。
4、拓宽渠道,优化统计服务。大数据要有大服务,大服务需要大产品。在大数据环境下,统计产品的产生在数量与类别上也将大幅度攀升,统计产品将得到极大的丰富。这必然要求发布媒介更加多样,可以充分利用微博、社交平台等新媒介,在部分较为成熟的领域或没有争议的数据进行实时统计与数据发布,在不侵犯个人隐私和确保数据安全的前提下,利用目前趋向成熟的云技术,开放数据源,让用户直接提取统计数据,将统计服务进一步向客户端延伸,拓宽数据用户使用面,“我的数据我做主”,提升对统计数据的解读能力和解读力度,更大程度上满足统计数据的多样化需求。