设计应用

一种面向科技项目文本的相似度度量方法

作者：赵晓平1，马文1，刘雪萍2，陈达2

发布日期：2020-05-12

来源：2020年电子技术应用第5期

0 引言

文本相似度度量是指将文本看成一组词的集合体，分析每个词在文本中出现的次数以及在整个文本集合中出现次数，进而利用这些词频信息将文本建模为一个向量，并利用向量间的余弦距离等计算文本之间的相似度^[1-2]。

文本相似度度量被广泛应用于许多领域，例如：信息检索领域^[3-4]、文本分类^[5-8]、文本摘要的自动生成^[9-10]、文本的查重检测^[11-12]。本文关注的是在电力行业的科技项目查重中应用文本相似度度量。

现有的TF-IDF^[13-15]方法主要将文本建模为词频向量，再使用余弦相似度来计算两个文本间的相似度。但是对于多数文本而言，这种采用词频向量模型的方法需要将文本表示为词项数目与文本数目大致相当的矩阵，矩阵中的行列向量都有着非常高的维度并且是极度稀疏的，从而最终导致非常低效的计算^[1，16]。此外，这种方法也忽略了文本的的结构特征。

针对上述问题，本文提出一种既考虑了文本的结构特征，又能有效降低文本表示模型维度的文本相似度度量方法。给定两个文本，通过文本所提方法能够高效、准确地计算出两者间的相似度，为电力行业科技项目的查重提供有效支撑。

论文详细内容请下载http://www.chinaaet.com/resource/share/2000002786

作者信息:

赵晓平1，马文1，刘雪萍2，陈达2

（1. 云南电网有限责任公司信息中心，云南昆明 650011；2. 云南云电同方科技有限公司，云南昆明 650220）

原创声明：此内容为AET网站原创，未经授权禁止转载。

文本相似度 TF-IDF 文本聚类自然语言处理

《电子技术应用》全年合订本-电子版

网络安全+DeepSeek技术沙龙

何为现代数字城市？

欢迎查看AET新能源汽车电子专题

电子技术应用杂志过刊一览