设计应用

一种基于VSM的中文网页分类方法

作者:孔令成,郑 诚,吴永俊
发布日期:2009-10-20

  摘  要: 本文应用有指导机器学习方法实现了一个分类器。运用改进型的MI进行特征提取,并对传统的TFIDF加权公式进行了改进。实验结果表明该分类器有较高的分类质量,满足了中文网页自动分类的要求。
    关键词: 网页分类;文本;算法;特征

   网络的迅速发展,使人们不仅面临信息爆炸,同时也面临着如何从浩如烟海的信息中获取自己所需信息的难题。如何有效地组织和处理海量的信息,并过滤和管理网络资源,已成为必须面对的问题。
  为了网页信息的有效组织和检索,人们开发了各种网络信息搜索器(比如搜索引擎),在一定程度上确实提高了网络信息的利用率。与文本分类技术相比较,网页分类更加复杂,这是由网页的结构特征决定的,但是网页的信息主要是通过文本的方式向人们传递的,所以在对网页分类之前,首先要对其中的文本进行提取,对所提取的文本分类,最终使网页分类问题转化为文本分类问题。
  目前,文本分类技术的研究比较活跃,已经出现了多种文本分类算法,并且被广泛应用于多个领域:信息检索、搜索引擎、文本数据库等。文本分类算法[1-3]基本是基于概率统计模型,例如贝叶斯分类算法(Naive Bayes),支持向量机(SVM)、K近邻算法(KNN)等等。本文就是基于互信息(MI)提出一种改进的特征提取方法,并根据TFIDF提出一种新的特征权值计算方法构建中文网页分类器。实验表明,改进后的特征提取和特征权值计算算法在中文网页分类过程中取得了良好的效果。
1 网页预处理
  网页分类之前首先要进行预处理,实际上就是HTML解析,把解析出来的内容用于文本分类,选取网页中的下面这些文本用于分类:
    (1)锚文本。锚文本是网页中用于指示所连接网页内容的提示,由于后面要对提取的文本进行分类,所以只提取文字形式的锚文本。
    (2)title文本。这样的文本可能是网页中最重要的标签,必须取得。
    (3)meta标签。其重要的功能就是设置关键字,网页的制作者往往都设置了关键字,来提高网页的搜索点击率。可以利用meta标签中的有关文本内容进行网页分类。
    (4)主文本。上面这些信息获取之后,网页中剩余的文本信息还在各种HTML标签中,在HTML源文件中,主文本有可能不是连续出现的。主文本一般是网页中文字最集中的较长的字符串,查看源文件,那些比较长的字符串是整个出现在1个标签中的,因此提取出标签中的文本,并比较长度,选择较长的某几个作为主文本,利用它们进行分类。
  网页中像jave script和sytle这样的信息,如果把这些信息带到后面的信息提取中,会使所获取的文本准确度大大地降低,所以必须在网页中获取相关文本前就除掉。
  文本首先要确定的问题就是表示文本的基本单位,用于表示文本的基本单位通常称为文本的特征或特征项。中文文本不同于英文文本,英文文本以空格为分隔符,非常明确。而中文文本需要对其进行分词处理才能得出每个特征。本文采用中科院计算技术研究所汉语词法分析系统ICTCLAS3.0[4]进行分词。对于文本中的特征项,能标识文本特性的往往是文本中的实词,如名词、动词等。而文本中的一些虚词(如感叹词、介词等),对于标识文本的类别特性并没有多少贡献。如果把这些对文本分类没有意义的虚词作为特征,将会带来很大噪音,降低文本分类的效率和准确率。因此,在提取文本特征时,应首先考虑剔除这些对文本分类没有用处的虚词,而在实词中,又以名词和动词对于文本的类别特性的表现力最强,所以只保留那些对于文本分类有用的实词即:名词、动词。即便剔除了文本中的虚词,要对文本分类的数据量仍然会很大,为了进一步减少影响文本分类的噪音,则需要提取出对文本分类贡献大的特征项。
2 特征提取
    特征提取就是提取出最能代表某篇文章或某类的特征项,以达到降维的效果从而减少文本分类的计算量。典型特征提取方法:信息增益(Information Gain),互信息(MI)、文档频度(DF)。传统的MI特征提取方法:

  计算出所有特征词的统计值后,从大到小进行排序,然后根据需要从上到下选取一定数量的特征词构建文本分类的特征词库。
3 特征加权及向量化
   TFIDF算法及其改进型[5]有多种公式,本文使用一种新的改进的TF-IDF公式来计算特征词的权重。TF-IDF公式有很多变种,比较常见的TF-IDF公式:
    

  网页不同于一般的文本,页面中包含了诸如,

此内容为AET网站原创,未经授权禁止转载。
网页分类