引言
算力、算法和数据是人工智能的三个关键要素,长期以来,高耗算力、模型闭源和数据短缺一直制约着人工智能大模型的应用普及。以DeepSeek为代表的人工智能企业,实现了MOE等关键技术重大突破并采取了模型开源策略,实现了“算力平权”和“算法平权”[1],促进人工智能大模型向通信、互联网、汽车、能源、金融、医疗等各行各业加速渗透,人工智能大模型广泛应用的时代已经到来。与此同时,一条面向人工智能的数据产业链正在快速形成:上游是公域数据资源和基础大模型,中上游是非结构化高质量数据集和行业高质量数据集,中下游是智能体和垂域大模型两类应用工具,下游则是千行百业的智能化应用。垂域大模型通过在特定领域的深度应用,已在药品研发、金融风控、医疗诊断等领域展现出专业级能力[2];智能体通过“感知—决策—执行”的闭环,在具身智能、工业制造、自动驾驶等场景实现实时交互与自主作业[3]。在这条产业链中,高质量数据集处于承上启下的关键位置:向上承接海量原始数据资源,向下支撑大模型训练和智能体运行。工具越成熟,应用越广泛,对高质量数据集的需求就越迫切。
然而,从原始数据到高质量数据集,还面临着三重困境。一是数据资源“供不出”。据IDC统计,全球非结构化数据占数据总量的80%以上[4],这类数据格式各异、标准不一,加之大量涉及隐私或商业秘密的私域数据开放意愿不足,导致绝大多数数据难以直接流通。二是行业数据“存不好”。高价值的行业数据大多分散保存在各部门、各企业,据统计每年约四成数据从未被使用过[5],大量潜在价值数据在沉睡中逐渐流失。三是高质量数据集“产不好”。当前高质量数据集的构建主要由人工智能企业自行完成[6],生产方式原始、效率低下,投入产出失衡、标准规范缺失[7]。
从全球发展趋势来看,高质量数据集的设施化、规模化生产已成为共识。美国Scale AI自2021年获得美国军方25亿美元合同后,从数据标注外包公司发展成为专业的数据工厂,构建了覆盖通用、生成式AI、公共部门、汽车等不同领域的专业化数据引擎矩阵[8]。美国2025年提出的“星际之门”项目整体投资5 000亿美元,将高质量数据明确定位为“国家战略资产”[9]。欧盟2025年推出数据联盟战略,建设数据实验室作为人工智能工厂的有机组成[10]。在国内,帕西尼2025年建成全球规模最大的具身智能数据采集基地,库帕思构建了包含403个功能模块的语料工具链平台。借鉴水厂、电厂等资源型基础设施的发展规律,本文提出“数据工厂”概念,系统研究其构成体系、建设模式和运营机制。
本文详细内容请下载:
http://www.chinaaet.com/resource/share/2000007054
作者信息:
涂群1,耿贵宁2,张茜茜3
(1. 北京化工大学经济管理学院,北京100029;
2.三六零数字安全科技集团有限公司,北京100015;
3.北京物资学院计算机与人工智能学院,北京101126)