徐平1,2,徐建中1

1.哈尔滨工程大学,黑龙江哈尔滨150001;2.大庆石油学院,黑龙江大庆163318)

摘要:针对Web信息挖掘中的文本自动分类问题,提出了一种基于模糊特征向量和量子自组织特征映射网络的分类方法。该方法在特征提取时充分考虑了特征项在文档中的Web位置信息,构造出模糊特征向量,使自动分类原则更接近手工分类方法。关键词:数据挖掘;文本分类;学习算法

 

 

Document Automatic Classification Method Based on Quantum

Self-organization Characters Mapping Network

XU ping1,2,Xu Jian-zhong1

(1.Harbin Engineering University,Harbin 150001,China; 2.Daqing Petroleum Institute,Daqing 163318,China)

Abstract:Aimed at problems of documents classification in data mining,a classification method is pre-sented based on quantum self-organization characters mapping network.The feature Web information ofits locality in the document is considered while the features are extracted and the fuzzy Eigenvector isconstructed.

Key words:data mining;document classification;learning algorithm

 

文本自动分类在数据挖掘中是一项非常重要的内容。分类的目的是根据若干已知的规则,构造一个分类函数或分类模型,把数据库中的数据项映射到给定类别中的某一个。分类器的构造有统计方法、机器学习方法、神经网络方法等。上述分类方法分出的类是论域上的一些普通集合。这往往不能满足实际问题的需要,因为有些实际问题往往只能分出一些模糊的类,对象属于哪个类的界限是不清楚的。此外上述方法一般适用于较简单对象的分类,但是对由自然语言构成的文本分类就不合适。如果自然语言理解的问题能够得到解决,那么诸如文本分类和文献检索的问题也就迎刃而解了【1】。但是,自然语言理解的彻底解决似乎在短时期内尚无希望,因此开拓一条现实可行的途径,尽管可能解决的不太理想或许只能作为人的辅助工具,仍然是很有意义的【2】。针对上述问题,作者提出了一种基于量子自组织神经网络的自动分类和统计分析方法。本文构造了基于文本特征的模糊模型,研究了基于模糊特征向量和量子自组织特征映射网络的文本自动分类方法,以中国期刊网全文数据库部分文档数据为例进行实验,应用结果表明该方法的有效性。

1量子自组织网络模型

量子计算是信息科学和量子力学相结合的新兴交叉学科,自从1994年Shor提出第一个求解大数质因子分解的量子算法【1】和1996年Grover提出随机数据库搜索的量子算法【2】之后,量子计算以其独特的计算性能引起了广泛瞩目,迅速成为国际上研究的热点。模糊逻辑、进化算法和神经元网络被认为目前人工智能界最具有发展前途的三个重要领域,它们构成了所谓的智能计算或称软计算。这三者与量子计算有许多可类比之处,它们之间的融合在理论上有着良好的预期。量子计算与进化计算之间已有初步的融合,并已获得令人满意的结果【3-5】。到目前为止人们对于基于量子理论和量子技术的人工神经网络组成的本质还知道的较少。因此,将ANN与量子计算理论相融合而产生的量子神经网络成为一个极富前景的崭新研究领域【6-7】。

1.1量子神经元模型

一个神经元可描述为一个四元组:(输入,权值,传递函数,输出)。其中输入和输出是神经元的外部特性;权值和传递函数是神经元的内部特性【8】。因此,改变上述四个特性可构造出不同类型的神经元。根据以上思路,本文提出的量子神经元输入和权值都用量子比特表示;传递函数用求模算子实现。同时,与传统神经元不同,这种量子神经元自身带有一组单比特量子门,用于修正自身权值量子比特的相位,见图1。在量子神经元模型中,输入和权值分别用量子位和表示。量子位又称量子比特,一个量子比特的状态可表示为:

 

其中αi和βi是复数且满足下列归一化条件:

 


把满足式(1)和(2)的一对复数αi和βi称为一个量子比特的概率幅,因此量子比特也可以用概率幅表示为[αi,βi]T。记为量子输入向量;

为量子权向量。量子神经元输入输出关系可描述为(3)式。


其中f为求模算子,作为传递函数,该算子的作用是将量子神经元的输入映射为一个实数。单比特量子门Ui使用相位旋转门修正│wi的相位

 

 

1.2量子自组织特征映射网络模型

 

量子自组织特征映射网络是一个包括输入层和竞争层的两层网络,与普通自组织特征映射网络不同之处在于,QSOFM由量子神经元组成。见图2。该模型为两层结构;输入层和竞争层各含有个和个量子神经元;网络的输入输出关系可描述为(4)式。

 

 

                             2文档模糊特征提取

 

 

特征提取是文本分类系统中十分关键的问题,文本分类特征选取恰当与否对文本分类的正确性和分类效率有重要影响。传统的特征提取方法一般是基于统计的,首先根据某一准则对特征项进行评分,然后选出分值较高的作为特征构成特征向量空间。常用的特征提取方法有文档频率、信息增益、互信息等。由于特征提取一般不考虑特征项在文档中的位置信息,例如同一特征项出现在标题、关键词、摘要、正文中被等同看待,因此会影响分类精度。本文对上述方法进行了改进,应用模糊数学思想,把特征项在文档中的位置作为反映文档主题的重要程度(隶属度),并根据特征项的隶属度计算特征项的频数。

2.1模糊特征项集的构造

构造模糊特征向量首先要构造一个模糊特征项集。一个有效的特征项集,必须具备以下两个特征:①完全性,特征项能够体现全部文档内容;②可区分性,根据特征项集,能将目标文本同其它文档相区分。如何根据正文的语义提取可近似表示正文语义的特征项集是一个复杂问题,严格讲除了要求理解正文的含义之外,尚需有总结概括的能力乃至有较深的领域知识才能较好地解决这个问题,这是难以用现有计算机技术来实现的。因此必须与语言学家们结合把人类在抽取正文特征项时所遵循的原则总结出来。可能的原则可以包括:

(1)正文中的诸如前置词、冠词、代词等词类一般不在被选择之列。形容词与副词若被选中,必须与其修饰的词结合在一起,作为一个特征项。

(2)若在原文中已被作者选为关键词(如果有的话)则也选中它,并给予隶属度1。(3)在标题和摘要(如果有的话)中的名词有最大的可能性被选中,并给予较高的隶属度。

(4)根据受限自然语言理解的途径,找出正文中的一些“关键句”,即那些包含诸如“关键在于……”、 “旨在……”、“主要目的()是……”等的句子。在关键句中的词有相当大的可能性被选中,而且给予较大的隶属度。

(5)在引言和结论段中的词有较大的可能性被选中,并给予一定的隶属度。

(6)在段首或段尾出现的词有较大的可能性被选中,并给予一定的隶属度。

(7)要重视选择出现频度高的词,并随着频度的增加逐次增加其隶属度。

(8)隶属度叠加原则,即若一个特征项同时处于上述多种地位,则其隶属度以某种方式迭加。

(9)同义词、近义词或转义词出现时,根据其间的语义关联度大小作为某关键词的一次或部分出现统计在出现频数中。

(10)对上述方法获得的“模糊关键词集”的隶属度进行归一化处理;并进行“λ-滤波操作”,把该模糊关键词集中的隶属度小于λ(0<λ<1)的关键词滤掉。这样就可把不够重要的关键词忽略掉,而最终得到一个可以近似描述原文语义的“模糊关键词集”。

2.2模糊特征向量的构造在模糊集中,特征项在某一文档中出现的频数可按以下原则计算:

(1)若特征项在原文中已被作者选为关键词(如果有的话),应给予隶属度1

(2)若特征项在标题和摘要(如果有的话)中出现,应给予较高的隶属度。

(3)若特征项出现在正文中的一些“关键句”,即那些包含诸如“关键在于……”、“旨在……”、“主要目的()是……”等的句子,应给予较大的隶属度。

(4)若特征项出现在引言和结论段中,应给予一定的隶属度。

 (5)若特征项出现在段首或段尾,应给予一定的隶属度。

(6)若特征项在正文中有较高的出现频度,应随着频度的增加逐次增加其隶属度。

(7)若一个特征项同时处于上述多种地位,则其隶属度以某种方式迭加。

(8)若一个特征项的同义词、近义词或转义词出现时,应根据其间的语义联系大小作为该特征项的一次或部分出现统计在出现频数中。

 

                                                  3实际应用

 

作为该方法的一个应用,作者选择中国期刊网全文数据库(CNKI)作为测试样本源,根据CNKI已有的分类情况,下载了720篇文档作为测试语料库,包括:政治、经济、军事、法律、教育、体育、娱乐、环保、科技、生活、外语、计算机等12个主题,每个主题的语料包括60篇文档.综合全部文档的特征,共抽取了96个关键词组成特征项的集合。按照前述方法构

造全部语料样本的模糊特征向量。选择其中600

作为训练集,120篇作为测试集。见表1

 

 

 

按本文提出的算法,用训练集的600篇文档对网络进行自动分类训练,其中,竞争获胜节点的邻域选择为正方形.网络结构参数见表2。训练结束后各主题的分类效果见表3

由表3可以看出,召回率高的类正确率不一定高;而召回率低的类不见得正确率也低;召回率和正确率可同时较高。这说明对于自身特征不明显的召回率较低的主题类,网络尽管有较低的自识能力,但却有着较高的排斥能力;对于自身特征较明显而易于与其他类产生特征交叉的主题类,网络的自识能

力较强,排斥能力较弱;而对于专指度较高的主题类召回率和正确率都比较高,网络表现出了良好的分类能力。将训练好的网络用于测试集120篇文档的分类,同样显示出这种分类趋势,见表4

由表34可见,对于训练集,12个主题类中有8个分类的正确率达到90%以上,最高达100%;其余4个主题类最低为85.1%,平均为93%;对于测试集,有10个分类的正确率达到80%以上,其余2个主题类最均为77·8%,平均为87·5%;说明这种分类方法在文本分类方面具有一定潜力,同时具有较强的泛化推广能力,是值得推荐的一种较为实用的文本分类方法。

 

                                              4结语

 

 

文本的自动分类是信息处理领域中的一项重要研究课题,对文本自动分类作了探讨,针对实际分类问题中文本特征、类属特征的模糊性,及特征信息对于反映文本类别的重要性,出了基于特征向量和量子自组织特征映射网络的的文本分类方法。该方法是近十年来继模糊技术和神经网络的又一个新兴起的研究热点。由于融合了模糊技术与神经网络的优点,即增强了系统的语义表达能力和学习自适应能力,使得其在实际应用中有着广泛的领域。将网络的文本分类训练问题视为一个线性规划问题运用最小二乘原理及迭代思想导出了相应的学习算法。由于算法的迭代过程不涉及梯度计算,从而有效的避免了用传统梯度下降算法产生的局部极小值问题。为进一步提高分类的准确度,在特征谓词抽取及赋值、分类模型的完善、学习算法的改进、权重评价等许多方面还有待于进一步研究。

参考文献

1张东礼,汪东升.基于VSM的中文文本分类系统的设计与实现[J.清华大学学报(自然科学版)2003,(9):1288-1291.

2朱靖波,姚天顺.基于FIFA算法的文本分类[J.中文信息学报,2002,(3):20-26.

3 Narayanan A,Moore M.Quantum inspired genetic algorithmsA.Proce of the 1996 IEEE International Conference on Evolu- tionary Computation(ICEC96)C.Nogaya:IEEE Press1996 41-46.

4 Han K H.Genetic quantum algorithm and its application to combinatorial optimization problemA.IEEE Proc of the 2000 Congress on Evolutionary ComputationC.San Diego:  IEEE Press20001354-1360.

5 Yang Junan,et al.Research of quantum genetic algorithm and its application in blind source separationJ.ACTA Electronica Sinica2003201):62-68.

6 Xie Guangjun,Fan Haiqiu,Cao Licheng.A quantum neural computational network modelJ.Journal of Fudan Univer- sity(Natural Science)2004435):700-703.

7 Xie Guangjun,Zhuang Zhenquan.A quantum competitive learning algorithmJ.Chinese journal of quantum electron- ics2003201):42-46.

8鲁明羽,李凡.基于权值调整的文本分类改进方法[J.

清华大学学报(自然科学版)2003,(4):513-515.