数据工厂的构成、建设模式和运营机制研究-AET-电子技术应用

引言

算力、算法和数据是人工智能的三个关键要素，长期以来，高耗算力、模型闭源和数据短缺一直制约着人工智能大模型的应用普及。以DeepSeek为代表的人工智能企业，实现了MOE等关键技术重大突破并采取了模型开源策略，实现了“算力平权”和“算法平权”［1］，促进人工智能大模型向通信、互联网、汽车、能源、金融、医疗等各行各业加速渗透，人工智能大模型广泛应用的时代已经到来。与此同时，一条面向人工智能的数据产业链正在快速形成：上游是公域数据资源和基础大模型，中上游是非结构化高质量数据集和行业高质量数据集，中下游是智能体和垂域大模型两类应用工具，下游则是千行百业的智能化应用。垂域大模型通过在特定领域的深度应用，已在药品研发、金融风控、医疗诊断等领域展现出专业级能力［2］；智能体通过“感知—决策—执行”的闭环，在具身智能、工业制造、自动驾驶等场景实现实时交互与自主作业［3］。在这条产业链中，高质量数据集处于承上启下的关键位置：向上承接海量原始数据资源，向下支撑大模型训练和智能体运行。工具越成熟，应用越广泛，对高质量数据集的需求就越迫切。

然而，从原始数据到高质量数据集，还面临着三重困境。一是数据资源“供不出”。据IDC统计，全球非结构化数据占数据总量的80%以上［4］，这类数据格式各异、标准不一，加之大量涉及隐私或商业秘密的私域数据开放意愿不足，导致绝大多数数据难以直接流通。二是行业数据“存不好”。高价值的行业数据大多分散保存在各部门、各企业，据统计每年约四成数据从未被使用过［5］，大量潜在价值数据在沉睡中逐渐流失。三是高质量数据集“产不好”。当前高质量数据集的构建主要由人工智能企业自行完成［6］，生产方式原始、效率低下，投入产出失衡、标准规范缺失［7］。

从全球发展趋势来看，高质量数据集的设施化、规模化生产已成为共识。美国Scale AI自2021年获得美国军方25亿美元合同后，从数据标注外包公司发展成为专业的数据工厂，构建了覆盖通用、生成式AI、公共部门、汽车等不同领域的专业化数据引擎矩阵［8］。美国2025年提出的“星际之门”项目整体投资5 000亿美元，将高质量数据明确定位为“国家战略资产”［9］。欧盟2025年推出数据联盟战略，建设数据实验室作为人工智能工厂的有机组成［10］。在国内，帕西尼2025年建成全球规模最大的具身智能数据采集基地，库帕思构建了包含403个功能模块的语料工具链平台。借鉴水厂、电厂等资源型基础设施的发展规律，本文提出“数据工厂”概念，系统研究其构成体系、建设模式和运营机制。

本文详细内容请下载：

http://www.chinaaet.com/resource/share/2000007054

作者信息：

涂群1，耿贵宁2，张茜茜3

(1. 北京化工大学经济管理学院，北京100029；

2.三六零数字安全科技集团有限公司，北京100015；

3.北京物资学院计算机与人工智能学院，北京101126)

原创声明：此内容为AET网站原创，未经授权禁止转载。

设计应用

数据工厂的构成、建设模式和运营机制研究