引言
随着网络基础设施和信息通信技术的提升,互联网的规模迅速扩大。根据2024年发布的第53次《中国互联网络发展状况统计报告》,我国网民人数已达10.92亿,互联网普及率达到77.5%[1]。互联网的发展带来了信息传播的便利,也带来了信息安全和内容监管方面的挑战。在西藏等少数民族地区,这一挑战尤为显著。西藏地处中国的边疆地区,拥有悠久的历史和丰富的文化遗产,同时也面临着综合治理的重大挑战。网络上发布的敏感信息,其中包含恶意攻击和歧视性语言等,严重侵犯了个人权利和尊严,导致个体心理、价值观和行为规范的扭曲。此外,虚假新闻或谣言的泛滥可能会破坏社会信任,严重违反社会公德和法律法规,很容易引起社会大众的不满与抵制,还会给社会秩序、国家稳定与团结带来不利影响[2]。
针对网络敏感信息的自动检测和过滤问题,相关研究者采用了各种方法来提高检测的效率和准确性。袁斐洋等[3]根据藏文敏感词权重值对网页进行等级划分,对含有敏感信息的网页进行拦截,避免不法言论和信息的传播,以优化藏区网络环境。南奎娘若等[4]采用基于不同特征加权及权重度量的方法抽取基于敏感的藏文自动摘要。江涛等[5]提出了基于藏文网页的舆情监控系统,系统监控藏文网页的“敏感点”并对“热点”实现预警。汤烈等[6]提出了一个基于K最近邻算法的网络不良信息过滤模型。在样本预处理时对训练样本进行了筛选,使系统的查准率、查全率和处理速度都有一定的提高,更适应实时在线系统的不良信息过滤。普措才仁[7]根据不良信息的特点对潜在语义分析进行了简化,并设计了基于简化的潜在语义分析的藏文Web不良信息检索算法。该检索算法能够对具有关于某个主题的特定倾向的文本进行过滤,对于那些冗长文本中因为关键字分散而造成的假匹配,通过语义分析可以很好地甄别处理,从而提高系统的召回率。陆向艳[8]提出一种基于支持向量机(Support Vector Machine,SVM)的不良信息识别方法,包括文本标记、文本分词、Doc2Vec文本向量化、SVM不良信息分类器训练、SVM不良信息测试5个步骤。实验结果表明该方法能有效识别网络不良信息,为网络不良信息的甄别提供了一种方法参考。
传统的藏文敏感信息检测方法在处理大规模、多样化的藏文文本时效率低下,已无法满足快速增长的在线内容需求。因此,将深度学习技术应用于藏文敏感信息检测以提高检测的准确性,已成为亟待研究的重要课题。本文采用一种基于混合神经网络模型——CINODPCNN,用于藏文网络敏感信息的检测。首先利用面向中国少数民族语言的多语言预训练模型(Chinese Minority Pretrained Language Model,CINO)对敏感信息文本进行动态的词向量构建,捕获藏文文本的语义信息,之后深度卷积神经网络层(Deep Pyramid Convolutional Neural Networks,DPCNN)通过卷积和池化操作对词向量进行局部特征提取,以获得文本的重要模式和特征,最后加入全连接层和分类器实现对敏感信息的识别与分类。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006417
作者信息:
吴瑜,严李强,徐梓恒,卓玛央金
(西藏大学信息科学技术学院,西藏拉萨850000)