引言
数据是数字经济时代的关键生产要素。2022年12月,中共中央、国务院发布《关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”)[1],首次从国家制度层面系统部署了数据产权、流通交易、收益分配和安全治理等基础制度框架,标志着我国数据要素化进入制度建设新阶段。2024年12月,国家数据局发布《国家数据基础设施建设指引》[2],明确提出要构建横向联通、纵向贯通、协调有力的国家数据基础设施体系,为数据要素的大规模流通利用提供底座支撑。与此同时,全球主要经济体也在加快数据基础设施战略布局,欧盟发布《欧洲数据战略》[3],提出建设欧洲数据空间;美国通过“星际之门项目”大规模投资AI基础设施[4]。这些政策实践表明,数据基础设施已成为大国竞争的战略制高点。
然而,数据要素化价值化在实践中仍面临“供不出、流不动、用不好”的普遍难题[5]。一方面,算力、算法和数据作为人工智能的三大要素[6],在算力和模型技术快速迭代的同时,高质量数据集的供给严重滞后,特别是2025年初DeepSeek的崛起大幅降低了大模型应用门槛,使得数据供给瓶颈更加凸显。另一方面,长期存储于政府、企业中的私域数据因安全顾虑难以流通,高质量数据集仍以作坊式、分散化方式生产,无法满足大模型对数据的规模化、标准化需求。数据产业链上下游企业难以协同,数据“采而不存、存而不治、治而不用”的现象普遍存在。
从基础设施演进的视角看,在工业社会,水厂、电厂是加工生产战略资源的基本业态;在信息社会,网络厂商、算力厂商承担了类似角色;进入数智社会,数据已成为国家战略资源,但作为数据基础设施基本业态的“数据工厂”尚未形成。现有研究对数据治理[7-8]、数据要素市场化配置[9-10]、数据流通与共享机制[11-12]以及数据确权与价值评估[13]等方面已有较多探讨,但对于如何构建面向人工智能大模型的规模化数据生产设施,尚缺乏系统的理论阐释和概念界定。
正如工业社会水有水厂、电有电厂,数据工厂正在成为数智社会的一种新兴生产业态。发展数据工厂,不仅是顺应全球数智化发展趋势的必然选择,而且对于创新国家数据基础设施新型业态,打造高质量数据集规模化供给设施,推动数据产业高质量发展,打通数据赋能人工智能“最后一公里”等方面,具有重大理论意义和实践价值。
本文详细内容请下载:
http://www.chinaaet.com/resource/share/2000007053
作者信息:
张茜茜1, 殷宏宇2,杨光3
(1.北京物资学院计算机与人工智能学院,北京101126;
2.北京联海信息系统有限公司,北京100043;
3.中国信息安全测评中心,北京100085)