引言
目前 , 我国的人工智能 ( Artificial Intelligence , AI) 已经进入统筹安全与创新发展的新阶段[1] 。人工 智能系统多以机器学习 (Machine Learning) 为基础技 术路径 。例如 , 生成式 AI 的工作原理是基于海量数据 学习总结规律 , 不断优化模型 , 依据操作者指令生成 新的内容 。而总结规律的过程便是机器学习环节[2] 。 机器学习利用数据和算法 , 通过模型训练学习 、参数调优来逐步提高决策准确性[3] , 最终形成预测 、判断 等信息智能 , 实现特定目标[4] 。
在以数据为核心驱动的人工智能技术体系中 , 机 器学习对训练数据的依赖性愈发显著 。与传统软件开 发的预设固定规则不同 , 机器学习通过对海量数据的 自主学习来完成能力迁移与性能优化 。因此 , 高质量 语料成为影响模型效果的关键变量 。而网络空间中的 已公开个人数据因获取便利 、信息密度高等特征 , 符合生成式人工智能研发对训练语料的需求 , 因而被广 泛采集并成为训练集的重要组成部分 , 用于支撑机器 学习模型构建和优化 , 应用于用户个性化推荐 、 自然 语言处理 、人脸识别训练 、金融风控与信用评估等场 景 。因此 , 在机器学习中如何高效规范地利用已公开个人数据 , 已成为人工智能发展和个人信息权益保护 的重要课题。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006992
作者信息:
王婉清
(华东政法大学 中国法治战略研究院 , 上海 200042)