设计应用

一种面向科技项目文本的相似度度量方法

作者:赵晓平1,马 文1,刘雪萍2,陈 达2
发布日期:2020-05-12
来源:2020年电子技术应用第5期

0 引言

    文本相似度度量是指将文本看成一组词的集合体,分析每个词在文本中出现的次数以及在整个文本集合中出现次数,进而利用这些词频信息将文本建模为一个向量,并利用向量间的余弦距离等计算文本之间的相似度[1-2]

    文本相似度度量被广泛应用于许多领域,例如:信息检索领域[3-4]、文本分类[5-8]、文本摘要的自动生成[9-10]、文本的查重检测[11-12]。本文关注的是在电力行业的科技项目查重中应用文本相似度度量。

    现有的TF-IDF[13-15]方法主要将文本建模为词频向量,再使用余弦相似度来计算两个文本间的相似度。但是对于多数文本而言,这种采用词频向量模型的方法需要将文本表示为词项数目与文本数目大致相当的矩阵,矩阵中的行列向量都有着非常高的维度并且是极度稀疏的,从而最终导致非常低效的计算[1,16]。此外,这种方法也忽略了文本的的结构特征。

    针对上述问题,本文提出一种既考虑了文本的结构特征,又能有效降低文本表示模型维度的文本相似度度量方法。给定两个文本,通过文本所提方法能够高效、准确地计算出两者间的相似度,为电力行业科技项目的查重提供有效支撑。



论文详细内容请下载http://www.chinaaet.com/resource/share/2000002786




作者信息:

赵晓平1,马  文1,刘雪萍2,陈  达2

(1. 云南电网有限责任公司 信息中心,云南 昆明 650011;2. 云南云电同方科技有限公司,云南 昆明 650220)

此内容为AET网站原创,未经授权禁止转载。
文本相似度 TF-IDF 文本聚类 自然语言处理