0 引言
专利分类是专利挖掘和管理中重要的基础任务。其主要目的是通过自然语言处理等方法提取专利文档中的重要特征,然后将这些特征输入分类器中,其输出结果表示专利文档所属的标签。通常一个专利具有一个或多个标签。面对每年快速增长的专利申请数量,实现高效的、自动化的专利分类算法可以大大减少专利机构的人工成本和时间成本。目前,自动化专利分类算法已被专利机构广泛使用,为专利检索[1]、专利价值评估[2]、专利诉讼风险评估[3]等专利智能服务提供支持。
因此,这吸引了许多研究人员来研究自动专利分类问题[4-6],并且这些方法中的大多数将其视为多标签文本分类任务[4-5]。专利的主要内容为其组件和创新的详细说明文档,该任务的目标是针对专利自动化预测一组标准化的类别。传统的专利分类方法大多基于统计学和自然语言处理方法人工构造特征信息,输入到机器学习模型中进行训练,然后预测未知专利的类别信息。这些方法大多属于浅层模型,仅仅学习了专利文本简单的词义信息,无法获取深层的上下文语义信息。而且专利中包含了大量的非结构化信息,如专利之间的引用信息,通常将专利作为网络节点构建专利引用网络,然后基于网络分析的方法对专利节点进行分类。此类方法专注于学习网络的结构信息,忽略了专利文本信息对预测专利类别的影响。
本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003896.
作者信息:
王庆才1,2,刘贵全1,2
(1.中国科学技术大学 计算机科学与技术学院,安徽 合肥230027;
2.大数据分析与应用安徽省重点实验室,安徽 合肥230027)