大数据的数据开放与共享

博诚经纬
随着大数据技术的不断发展以及对大数据价值的深入挖掘,大数据作为一种资源受到人们越来越多的关注,数据呈现出战略化、资产化、社会化等特征。

随着大数据技术的不断发展以及对大数据价值的深入挖掘,大数据作为一种资源受到人们越来越多的关注,数据呈现出战略化、资产化、社会化等特征。

大数据的真正价值在于如何合法的充分应用,数据开放和数据共享成为大数据的关键因数。《开放数据宪章》将开放数据定义为具备必要的技术和法律特性,从而能被任何人在任何时间和任何地点进行自由使用、再利用和分发的电子数据。其定义突出强调了开放数据的两个核心因数,一是数据,是指原始的、未经处理并允许个人和企业自由利用的数据,在科学研究领域它也指代原始的、未经处理的科学数据。二是开放,开放一般来说可以从两个层面上来定义,即技术上的开放和法律上的开放。

近些年来,全球各国纷纷将数据开放纳入到国家发展战略。美国政府最先对大数据革命做出战略反应的。2009年,美国联邦政府发布《开放政府指令》,作为大数据的前奏推出了“Data.gov”公共数据开放网站。2012年3月,美国联邦政府发布了《大数据研究和发展计划》,正式启动了“大数据发展计划”,宣布将投入超过2亿美元在大数据研究上;同年5月,联邦政府发布《数字政府战略》(Digital Government Strategy),致力于为公众提供更好的“数字化”服务,围绕数据进行的一系列措施在美国政府全面推进,大数据对美国政府的影响逐步显现。我国于2004年发布了《2004-2010国家科技基础条件平台建设纲要》,启动了国家科技基础条件平台建设专项,完成基础资源的整合。以资源共享为核心,开展科技资源的开放共享和利用。2009年我国的科学技术网站——中国科技资源共享网正式开通。

2007年12月,在蒂姆·奥莱理的召集下,创建TrackGov.us的陶伯拉和其他29名开放公共数据的推动者共聚奥莱理出版社的加州总部。通过两天的会议,他们制定发布了开放公共数据的8条标准和原则。

1.数据必须是完整的。除非涉及国家安全、商业机密、个人隐私或者其它特别限制,所有数据都应开放。

2.数据必须是原始的。即是从数据源头采集的原始数据,而不是被加工修改过的数据。

3.数据必须是及时的。应当在第一时间更新数据。

4.数据必须是可读取的。即数据可被读取,并尽可能地扩大用户范围和利用种类。

5.数据必须是机器可处理的。

6.数据的获取必须是无歧视的。数据对所有人平等开放,不需要特别的手续。

7.数据格式必须是通用非专有的。即数据格式不能独家控制,不得排除他人对数据的使用权。

8.数据必须是不需要许可证的。即除非特定,数据使用不受约束。

奥莱理在会上感叹说:“我们正在进入一个新的世界,在这里,数据可能比软件还要重要。”

我国也将政府数据开放提升到“国家战略”地位,在《促进大数据发展行动纲要》中明确提出“推动政府数据开放共享”整体要求,明确政务信息应“以共享为原则,不共享为例外”,将“形成公共数据资源合理适度开放共享的法规制度和政策体系”作为中长期目标。《政府数据开放准备度报告》从政策法规保障度、政策宣传引导度、学术理论支持度、数据人才输送度、社会舆论沸腾度、公众认知敏锐度等六个维度来评价当前政府数据开放的“基础土壤”。目前有31省份至2014年至今出台231份提及“政府数据开放”的政策文件。2018年之后,数据开放政策整体走向精细化,个别地区针对政府数据开放已制定详细的目标规划。截止2019上半年,已有上海、浙江等十余个升级政府数据开放平台搭建完成。

数据开放与共享的实施既是一个技术过程又是一个管理过程。技术过程是指采集用什么数据格式来发布,如何定义数据访问接口和跟新策略等涉及数据处理方面的问题。而管理过程则是指发布什么样的数据,采用什么样的开放许可协议等等。因此,一般建议数据的发布者应该遵循数据开放与共享原则和标准,按照平台的具体要求,进行数据的发布和开放共享。目前一般来说,数据开放与共享实施涉及三个主要的步骤,既数据集选择、开放许可协议和数据集的发现与获取。

数据集选择

选取将要开放的数据集是数据开放与共享的第一步,但在数据开放与共享实施过程中确实工作量最大的一步。如果涉及到政府数据或者个人数据,需要数据的发布者事先制定数据开放的标准以及对数据进行分级处理。

开放许可协议

在全球的各个国家法律体系下,知识产权法通常都限制第三方在没有被许可授权的情况下对数据进行使用加工。因此,在选择好待发布的数据集后,应该考虑对这些数据集应用什么样的许可协议。

数据发现与获取

选择好数据开放协议后,数据发布者可将数据集发布到相应的数据开放与共享平台。数据开放的目的是数据的再利用,因此数据发布者应当保证数据是可访问可获取的,且能提供机器能够访问的文件格式。

作为科研活动的基础性战略资源,科学数据开放共享意义重大。科学数据“多跑路”,科研人员就能“少跑腿”,提升科技创新效率和水平。近年来,我国科学数据呈现井喷式增长。作为基础性战略资源,科研活动离不开数据,要提升数据使用价值,开放与共享尤为重要。同时也要注意到,开放共享的前提是充分保障数据的安全,特别是对于涉及国家安全和秘密的科学数据,更要把握好开放与保密的关系,要重视强化国家关键数据资源保护能力,增强数据安全预警和溯源能力。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论