政府数据安全与共享
数据资产框架视角下我国政府公共安全数据开放现状、问题与对策
2020年10月08日 13:39    作者:陆莉    编辑:吴兰


【摘要】

[目的/意义]厘清公共安全数据开放现状、剖析关键管理问题是我国政府进行有效数据管理和实现大数据驱动公共安全治理的基础。

[方法/过程]以“数据资产框架冶视角为切入点,以我国地方政府数据开放平台的“公共安全冶主题版块数据集为研究对象,通过采集数据集的元数据信息,运用内容分析法描述政府开放公共安全数据的现状。

[结果/结论]从主题、来源机构、数据质量、应用场景以及利用状况几个方面对公共安全数据开放现状进行了梳理,并剖析了前期管理中存在的关键问题,基于此提出了提升我国政府公共安全数据规范管理与开放共享的对策建议。

【关键词】

公共安全数据;数据资产框架;政府数据开放平台;数据管理



公共安全数据即公共安全治理活动中产生或使用的能够反映活动现象、特征和规律的原始数据以及经过加工整理的数据集[1],作为国家重要的基础性战略资源,为国家的安全决策、行动支持及效果评估[2]提供了数据基础和信息保障。政府作为公共安全治理活动的核心主体,产生并积累了涉及社会安全、交通安全、医疗健康等各个行业领域的海量多源异构数据。在强调整合协调各种资源实现跨地区、部门与层级通力合作的总体国家安全观[3]指导下,进行政府公共安全数据的一体化管理集成,打破区域、行业、部门、系统等边界障碍对数据流动带来的阻碍,能更好地提升数据互联互通性,实现数据驱动的公共安全风险态势感知、实时分析和精准决策,提升国家的整体安全能力。

政府开放数据是公共安全数据管理共享与发布应用的主要方式之一,也是大部分政府所选择的数据治理价值的实现渠道[4]。由于能够赋予公民和企业权力并改变政府提供公共服务的运作方式,开放数据成为了数据行业中的重要资源和政府的战略性资产[5]。厘清我国政府公共安全数据资产的开放现状,是促进数据有效管理、增值开发和开放重用的基础。因此,本研究从“数据资产框架冶视角切入,收集关于公共安全数据开放及管理实践的信息和证据,运用内容分析法并结合政府开放数据研究的关键议题,分析公共安全数据开放现状,从数据全生命周期的下游阶段逆向剖析管理中存在的薄弱环节与关键问题,为提升我国政府公共安全数据管理能力提出对策建议。


1 文献回顾与研究逻辑


1.1文献回顾

1.1.1政府开放数据政府开放数据相关研究可分为三类视角:淤政府开放数据政策研究,关键议题如政策制定的影响因素、政策内容、数据开放顶层设计等[6];于开放政府数据的实施研究,关键议题如实施障碍分析、机构开放数据活动的透明度与参与度、数据开放程度与数据质量、数据主题分类框架等[7,8];盂开放政府数据的影响与效果研究,关键议题如实施效果评价、不同利益相关者的态度和利用状况、不同层级政府数据开放平台的建设与利用现状等[9]


可见政府开放数据活动是一个复杂系统,从横向来看,涵盖了数据管理中的客体对象、数据主体、管理活动等核心要素;从纵向来看,有助于从数据生命周期下游阶段的发布应用现状出发诊断其前期管理的薄弱环节。考虑到关于政府开放数据的较多研究关注数据平台的评估而忽视了对数据集的剖析[10],本文引入“数据资产框架冶视角,以统筹涉及多样化、复杂性问题域的政府开放数据相关研究议题,从数据集角度出发对公共安全数据开放现状及管理问题进行分析。


1.1.2 数据资产框架(Data Asset Framework, DAF) DAF是英国联合信息系统委员会提出的面向科 研数据的管理模型,该模型认为梳理机构数据资产的 保存和管理现状进而制定适当的管理策略,是数据管 理的初始步骤和开展实践的基础[11]。其评估数据管 理现状和数据持有量的工作包含四个步骤:淤规划和 明确调查目标与范围;于识别现存数据资产并对其进 行分类,确定需要深入分析的内容;盂借助数据生命周 期理解机构业务流程,并确定数据创建和管理实践中 的薄弱环节;榆根据收集到的证据为提升数据管理提 出建议方案[12]


在 DAF 的应用中,数据资产目录元数据集( Data assets inventory metadata) 是重要工具,可帮助审计人员或数据资产调查员收集和记录数据资产的详细信息,进而完善机构数据资产目录,对数据资源进行全面描述、组织和管理[13]


1.2研究逻辑

DAF设计目标与适用范围同本文厘清政府公共安全数据开放现状与问题的目标在分析对象和逻辑思路上一致。因此,参照DAF的目标与内容,思考公共安全数据资产在审计步骤与元数据集方面的差异性,本文调研政府开放公共安全数据资产描述的元数据集并收集相关描述信息,在执行公共安全数据资产审计步骤中将政府开放数据的几个重要考察方向统筹起来:以政府开放数据“公共安全冶主题版块为调查目标与范围,分析公共安全数据的来源机构;识别与分类公共安全数据资产,分析主题分布、数据类型、利用程度等政府开放数据研究的关键议题;根据上述分析内容,评估当前公共安全数据的开放现状,发现管理流程中可能存在的薄弱环节与关键问题;最后基于分析结果,提出提升公共安全数据规范管理与开放共享的改进建议,整体研究逻辑见图1。


5C3BB


2 研究设计


2.1 样本选择

本研究以我国官方的政府数据开放平台中“公共安全冶主题版块为调研对象。“公共安全冶主题版块为不同来源的数据提供了统一的发布共享渠道,也为从整体上进行数据资产信息调研与获取提供了可能性。经初步调研,我国共有16个地方级的政府数据开放平台专门设置有“公共安全冶主题版块。参考DAF制定的“机构数据资产核心元数据集冶进行评估,不同平台采用了差异化的元数据集方案,虽不同程度上涵盖了数据主题、来源部门等基本的元数据元素,但元素的名称、数量和取值不一致,且均未涉及使用频率、数据许可与使用权限、备份与保存策略等体现数据资产特性的关键元素。本文最终选取与DAF制定的元数据要素具有一定重合性且开放数据集数目大于205个代表性平台(见表1)。通过网络自动抓取和人工调研相结合的方法采集数据,获取共计428个公共安全数据集的元数据信息


9433



2.2研究方法

研究遵从内容分析法的基本步骤,首先基于DAF对探索我国政府公共安全数据开放现状并剖析管理薄弱环节这一研究问题进行分解,并制定了相应的分析类目(见表2);其次,将选定样本平台的“公共安全冶版块数据集作为分析单元,确定不同平台中可反映分析类目的元数据元素,进行数据集元数据信息的采集;之后,判断同一类目下不同平台元数据元素取值的一致性,对于具有一致性取值的元素信息直接进行统计分析,不具有一致性的元素则结合数据集内容进行人工编码和归纳以反映分析类目,并进行信度与效度检验;最后,通过整合8个类目的数据分析结果,回答三个研究问题以支持公共安全数据开放现状分析与数据管理问题剖析。


A4CE



3 我国政府公共安全数据开放现状


3.1公共安全数据主题

数据主题是基于特定场域对数据内容和领域特征的凝练与总结,也是识别数据资产类别的关键依据。各样本平台的主题元数据取值指向不同的分类视角,行业领域视角如Z1、Z3、Z5将数据主题细分为政法监察、国土资源与能源等子类;机构主体视角如Z1、Z4出现机构职能、公安机关等子类;业务来源视角如Z1、Z4的民政业务、就业与培训、违法行为与处罚等子类;应用场景视角如Z2的应急、避险等子类。且不同平台主题分类的粒度不同,也普遍出现了主题交叉和表述模糊现象。


由于上述主题元数据取值分类和划分粒度缺乏一致性,对于公共安全数据内容和领域特征的描述不够准确,本文从公共安全活动视角出发,对整体样本数据集的主题进行统一编码和重新分类。首先,根据每个样本数据集内容对其所属的行业领域和涉及的安全活动进行编码;之后参考国家突发公共事件分类体系,根据数据集所属行业领域判断其主题子类及大类(自然灾害、事故灾难、公共卫生、社会安全);对于无法纳入以上四大类的数据集,根据其所属安全活动归纳为针对突发事件处置的应急管理主题大类和面向传统安全活动的国防军事主题大类。(见表3)。其中,事故灾难大类的数据集开放体量最大、数据内容多样,其他主题类数据集则稍显薄弱,凸显了公共安全数据资源建设在不同领域的差异性和整体建设的复杂性。

F472


3.2公共安全数据来源机构

来源机构反映数据资产的创建者和管理者,厘清来源机构是探索数据分布状态和权属问题的起点。公共安全数据涉及的机构众多,样本数据中包括了不同行业与行政事项的36个机构(见表4)。与数据主题分析结果一致,质监局、安监局等机构出现频次较多,而大量机构数据开放活跃度不高、开放体量较小。此外,Z4、Z5平台中数据维护方与提供方的一致性也表明目前我国政府部门的数据管理以自我为主导的管理方式为主,专门的大数据管理机构或通过政府主导建立的公益性质数据整理和服务机构还未全面参与到数据管理活动中来。


D599




3.3公共安全数据质量

数据质量是反映数据管理效果和发挥数据价值的基础,体现在准确性、易用性和及时性等方面。准确性是数据质量评估的基础维度[14],包括数值、数据来源以及数据描述等的准确性。研究发现Z1、Z4等平台出现数据摘要、关键字、数据标签等元素与标题完全相同,或包含的信息量有限、信息不准确等情况,不能对数据内容和特征进行准确清晰的描述。


易用性体现用户开发利用数据过程中的便利和难易程度[15],直观表现于数据格式与类型。从数据格式来看,公共安全数据资源格式以XLS、XML、JSON、CSV、RDF及API等结构化、可机读格式为主。从数据类型来看,大部分样本数据集并未进行类型的划分,仅有少量包含“文件集、数据集和数据产品冶的类型描述。根据数据内容对样本数据类型进行编码统计(见图2),原始型数据集仍占较大比例。

2B783

及时性评价数据发布速度与频率的合理性[16],是衡量数据在一定时间范围内使用价值的重要特性。目前所选样本平台的数据更新频率有定期更新(按年、半年、季、月或周)、不定期更新、实时更新和不更新四种方式(见表5),总体上大部分数据的更新周期较长,及时性有所欠缺。

12353

3.4公共安全数据应用场景

应用场景是满足用户数据需求、发挥数据价值的环境变量,也是实现数据应用目标的关键。在428个样本数据集中,共有368个数据集通过“应用场景冶或“服务分类冶元素发布了相关信息。经统计,与公共安全活动密切关联的应用场景描述包括城市安全(5次)、安全管理(6次)、应急指挥(3次)、灾难监测和预报(6次)、灾难准备和计划(3次)以及治安管理(2次)。其他应用场景与公共安全活动的相关性较低,且划分粒度较粗,如政府办事(136次)、惠民服务(64次)和政府资源管理(52次)等。

7A06


3.5公共安全数据利用状况

数据利用指已开放的数据资源满足人们需求和应用的情况与程度,可通过数据集浏览量、下载量、以及二者的比值等指标衡量其利用效果[17]。由于不同平台建设特点和开放数据时间与体量的差异性会影响浏览量与下载量,本文结合上述对数据集主题的编码分类,选取数据主题子类的整体平均浏览量(率)和整体平均下载量(率)作为参数(具体测算公式见表6),来分析用户对17个子主题数据的关注和利用程度,结果如图3所示。


整体样本平均浏览量能直观反映用户对不同子主题数据的关注程度,平均下载量则进一步反映用户对数据的利用程度。由图3可知,犯罪与司法(3988次)、社会治安管理(2200次)、医疗健康(1602次)、消防安全与火灾事故(1473次)、交通安全与事故(1407次)、食品安全(1387次)等社会安全、公共卫生、事故灾难三大类子主题的数据备受用户关注,而自然灾害、应急管理与国防军事三大类数据的关注程度较低。利用程度排名较前的主题包括犯罪与司法(1078次)、医疗健康(687次)、社会治安管理(484次)、交通安全与事故(480次)等,与用户的关注程度基本一致。此外,结合单一主题整体样本平均浏览率与下载率,可发现一些子主题数据特殊的利用状况,如资源与环境、交通安全与事故、医疗健康、经济安全类数据,其整体样本平均下载率高于平均浏览率,表明利用程度更为深入且不受数据开放体量和用户关注程度的影响。

4AF2B


4 公共安全数据管理的关键问题


基于上述对我国政府开放公共安全数据的主题、来源机构、质量、应用场景及利用状况的分析,剖析整体管理流程中存在的关键问题。


4.1缺乏规范性强、适用范围广、切合实践的数据主题目录

数据主题目录建设一方面可指导政府机构对数据进行收集、整理、管理与维护,另一方面为用户提供数据资源检索与获取的指引。目前我国各地方政府数据平台中公共安全数据主题类目标准不一,细化不足,还未构建起规范性强、适用范围广、切合实践的公共安全数据主题目录。在Z1、Z4等平台中,不同主题分类方式交叉应用,使得数据资源的管理缺乏清晰的分类指导与整理标准。子主题之下无更细粒度的项目划分,领域精细度缺乏与描述模糊的问题也无法使数据主题切合复杂的公共安全活动。由于公共安全数据以碎片化的方式散落在不同行业、部门和行政事项过程中,如何将散落的数据提取和汇集管理是发挥数据功能的首要任务,这需要从建立完整且细粒度的公共安全数据主题类目出发思考这一基础管理问题。


4.2 机构之间数据协同不足、数据权属界定模糊

政府公共安全数据主体主要包括各职能部门、应急管理部门和专门的数据管理部门。本文统计了数据来源机构信息,涉及了不同行业和行政事项的36个机构,其中质监局、安监局与公安局等职能部门的数据开放活跃度较高,其他职能部门的数据开放程度普遍较低。应急管理局出现频次为35次,但其开放的数据以本机构日常业务数据为主,而专门的大数据管理机构还未参与到相关的数据开放活动中来。公共安全数据管理还未形成不同类型机构之间的有效协同与合作。此外,样本数据集的元数据均未涉及数据权属的界定与说明。数据权属问题是实现机构数据协同的关键,归根结底是组织机构对数据的所有权、管辖权与使用权问题。随着各类风险复杂性、关联性和衍生性特征增强,发生跨领域机构和时空范围的公共安全事件成为常态。数据权属模糊会阻碍不同机构间数据的及时整合与跨界流动。大数据表现出的占有、使用、收益和处分4种权属[18]在不同类型机构之间如何分配与平衡值得进一步探索。


4.3数据质量管理面临公共安全场域的挑战

数据作为驱动公共安全治理变革的环境要素和内生变量,在公共安全活动中实现价值最大化面临新的要求与挑战。如政府部门进行风险预判预警时,精准决策和关联分析强调数据的完整性和准确性;公共安全治理活动持续性导致数据生成连续性,对数据的及时动态更新提出了要求;社会公众缺乏处理原始数据的能力更关注诸如风险地图、信息仪表盘等的应用,对数据开放的类型提出了要求。从本文分析结果来看,数据标签、关键字等描述信息不准确,数据更新周期普遍较长导致及时性不足,数据开放类型和内容单一难以满足不同类型用户的多样化数据需求等问题突出。数据质量管理应作为关键工具和管理手段,从公共安全场域对数据的要求出发,探索数据在公共安全活动不同阶段的存储、管理和使用方式。通过数据收集与采集标准的制定、基于重要性与敏感度评估的动态更新策略制定、面向不同类型用户的数据开放策略制定、专业数据管理与审核人员培训、数据的安全与可恢复性建设等多方面工作维护数据质量。


4.4数据应用场景与公共安全情景缺乏关联与融合

厘清数据应用场景有助于实现从社会全系统数据集聚焦到公共安全领域子系统数据集,体现公共安全数据管理的独特性和敏感性。前文分析结果显示目前公共安全数据集与公共安全活动的关联性普遍不高,应用场景缺乏与公共安全治理各功能节点的对接,仅有25个数据集的应用场景描述中出现了应急指挥、灾难监测和预报等具体活动。突发事件的预防准备、监测预警、应急处置和善后恢复不同环节[19]为数据的应用场景搭建和情景要素提取提供了依据。在分析大数据在公共安全治理不同环节中的描述与预测功能基础上,可从提取公共安全治理情景动态演化过程中的关键要素以及与之对应的数据需求出发,增强数据应用场景与公共安全情景的有效关联融合,实现实时数据监测驱动的“情景-应对冶公共安全治理模式。


4.5公共安全数据的有效利用缺乏最佳实践的指导

数据利用实践是体现数据管理与开放效果的直接依据。本文从主题视角对数据集的用户关注和利用程度进行了初步探讨,结果显示犯罪与司法、社会治安管理、医疗健康等与“人的安全冶密切相关的数据集具有较高的用户关注和利用度。但大数据在公共安全治理实践中究竟发挥多少作用、其深入利用状况如何目前仍是一个经验问题,关于内外部用户的数据使用权限分配,不同主题和类型的数据利用对象分布情况,数据利用的成果形式及应用潜力评估等问题均未得到解答。目前国内开放政府数据平台应用开发主体以政府和企业为主[20],关于公共安全数据的应用开发理应成为政府关注的重点,既要充分利用自身的技术能力开发相关应用,同时需要通过制度建设与激励机制鼓励有大数据处理能力的企业开发应用产品,以及通过众包等方式充分发挥公众在数据应用和标注中的群体智慧。通过典型案例建设和分析支持公共安全数据管理开放标准制定、制度建设和技术应用等细节问题的探索。


5 提升我国政府公共安全数据规范管理与开放共享的对策建议


结合上述对公共安全数据开放现状的总体描述和管理问题剖析,本文从不同维度出发提出以下建议。

一是在宏观制度层面加强战略规划与整体设计,以提供整体性指导:

a.制定统一的“公共安全数据资产描述元数据集冶,一方面保证核心元素名称、取值、格式等的一致性,提升不同机构数据采集和管理的标准化和规范性,另一方面注重补充目前普遍缺失的使用频率、数据许可与使用权限等体现数据资产特性和应用场景、关联关系等凸显公共安全领域数据特殊性的关键元素项。

b.进行公共安全数据主题类目的细化,将从已开放数据现状出发进行分析的自下而上生成过程与从公共安全活动实际数据需求出发的自上而下生成过程结合起来,构建类目设置契合公共安全活动、具有灵活性与适用性的数据资产目录表,以指导和规范不同机构的数据管理工作,实现“逻辑上统一集中、数据分布式存储冶[21]的管理目标,为政府数据的开放共享以及用户的数据资源搜索获取提供指引。


二是在中观组织层面注重数据协同与质量管理,提升不同类型机构的公共安全数据开放程度:

a.探索机构数据的所有权、归集权和使用权等数据权属问题,以支持不同机构在风险预警与应急决策业务层面的数据协同、流动共享与关联分析。

b.制定灵活的公共安全数据资产分级分类管理依据与标准,鼓励机构共享开放具有增值潜力的部分数据,在此基础上合理分配内外部用户的不同使用权限,既保证数据的安全性,也能增强数据的开放与利用效果。

c.注重专业数据审核与管理人员的培训,培养既熟悉部门业务同时又具有一定数据素养和数据管理能力的专业人员来提升机构数据质量。


三是在微观数据层面加强全生命周期管理,促进不同安全领域数据的开放与应用:

a.改进目前公共安全数据管理的薄弱环节,加强数据备份与存储策略、数据长期保存、版本控制等缺失环节建设,以实现全生命周期的整体管理目标。

b.注重数据关联关系的建立和应用,从不同安全领域和机构业务活动协同场景出发探索不同类型数据关联关系的搭建和应用方式,支撑公共安全活动中的关联分析和智能决策。

c.在数据采集与整理过程中注重应用场景的细化与标注,支撑数据增值与重用,提升面向公共安全活动的公众参与和第三方机构数据产品开发的潜力。


6 结语


本文从“数据资产框架冶视角出发,以政府数据开放平台中的“公共安全冶版块数据集为分析对象,对我国政府公共安全数据的开放现状和管理问题进行了分析。作为一项探索性工作,研究还存在一定的局限性。首先,不同政府数据开放平台元数据方案与开放体量具有差异性,且各平台元数据方案中普遍缺失数据许可与使用权限等关键元素,影响了数据资产信息调研的深度与效果。未来研究中可选取不同领域的典型机构进行实地调研与数据资产评估,深入解析公共安全数据管理的共性和特性问题。其次,“数据资产框架冶作为科研数据管理的典型工具,在公共安全数据现状调研与管理问题分析过程中,还需结合数据特征思考其在面向政府数据开放平台、各政府职能部门、不同行业领域中应用的差异性,尤其应进一步探索面向公共安全数据关联关系、数据权属、应用情景等问题调研时框架的修正应用。



参考文献

[1]沙勇忠,陆莉.公共安全数据管理:新领域与新方向[J].图书与情报,2019(4):1-12.

[2]巴志超,李纲,安璐,等.国家安全大数据综合信息集成:应用架构与实现路径[J].中国软科学,2018(7):9-20.

[3]张金海,马振超,朱旭东,等.总体国家安全观研究的系统性文献综述[J].情报杂志,2020,39(5):9-16,22.

[4]谭必勇,陈艳.加拿大联邦政府数据治理框架分析及其对我国的启示[J].电子政务,2019,193(1):16-24.

[5]Manyika J, Chui M, Groves P, et al. Open data: Unlocking innovation and performance with liquid information[J]. McKinsey Global Institute, 2013(21):116.

[6]Bertot J C, Gorham U, Jaeger P T, et al.

Big data, open government and e-government: Issues, policies and recommendations[J]. Information polity, 2014,19(1):5-16.

[7]李姣,郭海红,郭珉江,等.美英政府开放健康医疗数据的主题分布与开放程度量化研究[J].图书情报工作,2015(20):132-137.

[8]Zhao Y,Fan B. Exploring open government data capacity of governmentagency: Based on the resource-based theory[J].Government Information Quarterly, 2018,35(1):1-12.

[9]MergelI, Kleibrink A, Srvik J. Open data outcomes: US cities between product and process innovation[J]. Government Information Quarterly, 2018,35(4):622-632.

[10]Vetro A, Canova L, Torchiano M, et al. Open data quality measurement framework: Definition and application to Open Government Data[J]. Government Information Quarterly, 2016,33(2):325-337.

[11]卫军朝,蔚海燕.“数据资产框架(DAF)冶视角下的机构数据资产审计调研与分析[J].图书情报工作,2016(8):59-67.

[12]Jones K. Assessing institutional data storage and management using the Data Asset Framework(DAF) methodology at the University of Bath[J]. Bath: University of Bath, 2011.

[13]Jones S, Ball A, Ekmekcioglu, The Data Audit Framework: a first step in the data management challenge[J]. International Journal of Digital Curation, 2008,3(2):112-120.

[14]余厚强,曹雪婷.替代计量数据质量评估体系构建研究[J].图书情报知识,2019(2):19-27,50.

[15]徐慧娜,郑磊.面向用户利用的开放政府数据平台:纽约与上海比较研究[J].电子政务,2015(7):37-45.

[16]唐长乐,张晓娟.政府开放数据更新评估研究:类型、性能与测度[J].情报资料工作,2019,40(1):107-114.

[17]段尧清,邱雪婷,何思奇.主题与区域视角下我国城市政府开放数据利用现状分析[J].图书情报工作,2018(20):65-76.

[18]安小米,郭明军,魏玮,等.大数据治理体系:核心概念、动议及其实现路径分析[J].情报资料工作,2018(1):5-11.

[19]马奔,毛庆铎.大数据在应急管理中的应用[J].中国行政管理,2015(3):136-141,151.

[20]孟显印,杨摇超.我国开放政府数据应用开发的现状与问题[J].情报杂志,2020,39(3):163-171,197.

[21]张晓娟,刘亚茹.中国政府信息公开目录体系建设研究———基于省级和部委政府网站的调查与分析[J].电子政务,2017(7):75-84.


联系我们
  • 电话: 010-82339017 邮箱: beihangkexie@163.com 地址: 北京市海淀区学院路37号 邮编: 100191