引言
互联网以开放式体系结构和标准化协议在物理网络之上构建了一个由主机组成的虚拟数据传输网络,从而屏蔽了下层物理网络的通信细节,在异构的物理网络之上形成了全球一体化的网络空间。随着互联网的发展和大数据时代的到来,数据成为互联网中最具价值的核心资源。然而,在现有架构中,数据高度依赖于具体的应用系统和底层平台,未能实现真正的解耦,导致数据在访问、共享和流通过程中面临诸多障碍。数据不解耦造成的问题主要体现在以下几个方面:
(1)数据高度分散在各类应用系统中。在当前复杂的数据生态中,数据分散存储与异构化是难以完全消除的客观存在,传统的数据管理机制使数据在跨系统调用时存在反复的格式转换和接口适配,使得数据的检索、流通和访问使用效率较低。亟需更加优化、高效的解决方案通过标准化的封装与接口机制,来降低跨系统数据访问与整合的开销。
(2)数据结构、语义和接口标准高度异构。在不同应用场景下,数据格式多样、语义难以统一、接口规范缺失,使系统之间的互操作性始终面临挑战。当前主流的数据管理机制依然存在因异构造成的效率瓶颈,需要研究如何有效化解数据异构性衍生的数据互操作效率。
(3)数据深度依赖具体的计算任务和运行环境。数据的这一客观特性,使得数据仅在计算任务生命周期内是有效“存在”和使用的,而原本零散、短暂的数据难以被追溯和利用,需要研究如何降低数据与计算任务和运行环境的依赖性,以实现数据跨任务生命周期、跨系统环境的有效流转和利用,提高数据可追溯性和利用效率。
(4)数据紧耦合于封闭系统,外部主体难以有效访问或调用。在面向对象、面向服务等解耦和封装技术基础上,如何更加有效地降低跨系统、跨行业数据复用的难度,使数据更易发现、获取和利用,对于充分释放数据要素价值、发挥赋能作用具有重要意义。
因此,为实现数据在互联网空间中的高效流通与治理,必须从根本上改变“数据附属于计算”的技术逻辑,推进数据的抽象、封装与解耦。由此,数据空间应运而生,作为互联网架构从“以计算为中心”向“以数据为中心”演进的关键形态,其核心在于将数据从计算过程的附属角色中解放出来,确立其作为一阶实体的独立地位。围绕这一理念,数据不再仅作为计算任务中的输入输出,而是具备自主标识、独立生命周期和标准交互能力的基础资源。数据解耦的推进过程具有阶段性特征,主要经历了三个发展阶段,每个阶段都对应着不同的目标、抽象方式和技术机制。第一次解耦是数据与应用程序的解耦,其目标是屏蔽数据访问的复杂性,降低应用系统的开发门槛,该阶段数据基本抽象是ER模型,核心系统形态有数据库和数据仓库。第二次解耦是数据与业务系统的解耦,目标是屏蔽数据汇聚分析的复杂性,降低企业级系统的开发门槛,数据基本抽象是“键-值对”KV模型,核心系统形态有数据湖。第三次解耦是数据与生产和消费主体的解耦,目标是屏蔽数据流转与使用的复杂性,降低数据要素社会化供给、流通与应用的门槛。此次解耦的相关理论和技术还在研究发展中。
基于以上问题以及数据解耦的发展,相关组织及学者开展数据要素基础设施技术研究,旨在探索出一条安全、高效的国家数据流通利用基础设施的有效技术路径。当前正在研究的主要技术路线见表1。
通过对万维网[6]和数字对象架构(Digital Objec Architecture,DOA)的分析,面向数据要素治理应用场景和数据加工利用的第三次解耦趋势,本文以构建数据要素高效流通的基础理论模型和技术机制为中心,聚焦数据组件的理论模型构建和技术实现,厘清其作为数据要素流通最小单元的基本特征和可寻址、可交换、可操作与可管控等关键特性,开展数据组件模型、标识机制、互操作协议及注册发布发现等核心机制的研究,旨在建立一套具有规范性、可扩展性和可操作性的技术框架,实现数据组件在多主体、多系统间的发现、获取、流转与共享利用,推动数据要素在可信环境下高效、安全、有序地流通。
本文详细内容请下载:
http://www.chinaaet.com/resource/share/2000007055
作者信息:
林绍福1,李云江1,王宇航2,贾晓丰2
(1.北京工业大学计算机学院,北京100124;2.北京市大数据中心,北京100193)