设计应用

改进的TF-IDF算法在文本分类中的研究

作者:张 伟1,2,石 倩1,何 霄1,王 晨1,李禾香1,李骥然1
发布日期:2021-07-20
来源:信息技术与网络安全

0 引言

TF-IDF算法结构简单,类别区分力强,且容易实现,被广泛应用于信息检索、文本挖掘、文本分类、信息抽取等领域中。但是,该算法仅考虑词频方面的因素,没有考虑词语出现的位置、词性、样本分布等信息,存在一定局限性。对此很多研究者都提出过改进算法,王小林在传统TF-IDF算法基础上,提出利用段落标注技术,对处于不同位置的词语给予不同的位置权重,并对分词结果中词频较高的同词性词语进行相似度计算,合并相似度较高的词语,改进传统算法中忽视特征词位置因素和语义对相似度的问题[1]。覃世安针对传统TF-IDF算法在分类文本类的数量分布不均时提取特征值效果差的问题,提出使用特征值在类间出现的概率比代替特征值在类间出现次数的改进TF-IDF算法[2]。叶雪梅认为传统的特征词权重TF-IDF算法未考虑到网络新词,针对特征项中的新词对分类结果的影响给予不同权重值,提出基于网络新词改进文本分类TF-IDF算法[3]。这些改进算法都有效提高了模型性能,优化分类结果,取得了不错的实验效果。但以往改进算法研究主要集中在通过完善算法本身的缺陷以实现词条在文本中更加准确的权重赋值,忽略了其他类别区分特征因子。



本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003681




作者信息:

张  伟1,2,石  倩1,何  霄1,王  晨1,李禾香1,李骥然1

(1.中国石油工程技术研究院有限公司 北京石油机械有限公司,北京102206;

2.中国人民大学 信息学院,北京100872)


此内容为AET网站原创,未经授权禁止转载。
文本分类 VSM TF-IDF 石油 支持向量机