沈阳工业大学王宏生 张琳
[摘要]随着计算机技术的发展,各个领域的信息层出不穷,使得文本分类显得十分重要。针对当前文本分类存在的不足,提出了基于本体的文本自动分类方法。该方法将文本自动分类技术与本体技术相结合,并提出只从提取每段首尾句中提取特征词的方法,提高了文本自动分类的效率。
1引言
随着互联网的迅速发展和日益普及,网上的信息也越来越多。其中所包含的各种各样的信息情报、科技文献和新闻等都需要管理,为有效的保留大量的文本集合,对文本进行有效的管理方法之一就是将它们进行系统的分类。文本自动分类 (Automatic Text Categorization)就是利用计算机对文本集(或其他实体或对象)按照一定的分类体系或标准进行自动分类,属于同一类别的文本被标上相同的类别标记,为文本信息的检索提供系统化的解决方案。
David Lee[1]提出:文本分类是对给定的一组文档和一个主题集,分类器可以判断每个文档所对应的主题,即判断每个文档属于某一个主题而不是其他的主题。而且只需对文档的部分了解即可做出这样的判断。本文提出基于本体的文本自动分类方法,进行实验并与其它方法比较存在的优势与不足。
2本体Ontology
2.1定义本体(Ontology)概念从哲学领域发展到人工智能、知识工程、信息系统等诸多领域后,不同的领域有不同的定义。从1993年Gruber最早提出本体的定义,到后来Studer和Neches,Michael Uschold等学者的不同理解,目前为止本体还没有一个统一的概念。但是有一些公共的特征:概念化、形式化、领域知识和共享性。总之,本体是在领域专家的参与下,确定相关领域知识内可共享和交流的概念词表及表示概念间关系的一个关系集,从而提供对该领域的共同理解。
2.2分类本体的类型有如下几种:
(1)顶级本体:描述的是最普通的概念及概念之间的关系,如空间、时间、事件、行为等等,与具体的应用无关。
(2)领域本体:描述的是特定领域中的概念及概念之间的关系。
(3)任务本体:描述的是特定任务或行为中的概念及概念之间的关系。
(4)应用本体:描述的是依赖于特定领域和任务的概念及概念之间的关系。
2.3应用
“贝叶斯假设”[3],假定组成文本的字或词在确定文本类别的作用上相互独立,这样就可以使用文本中出现的字或词的集合来代替文本。所以这里,我们引用本体,因为本体是概念的集合能很好的表示文本,虽然这将丢失大量关于文章内容的信息,但是这种假设可以使文本的表示和处理形式化,并可以在文本分类中取得较好的结果。
3文本自动分类
3.1定义文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。
文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。分类模式分为:(1)2类问题,属于或不属于;(2)多类问题,多个类别,可拆分为2类问题;(3)一个文本可以属于多类。
在理论研究方面,对2类问题的研究要远远多于对多类的研究,主要原因是2类问题算法可以非常容易地转化成多类算法,比如要将一篇文档分到M个类中,并且要给它分K个类号。可以先给它分一个类,然后问题变成在M-1个类中,将它分到K-1个类中,此问题可以循环K次,最终将此文档分到K个类中。这种方法有一个假设条件,就是各个类之间是独立的,没有相互依存关系或其它影响,当然,实际应用中绝大多数情况是符合此假设条件的。
多类算法很难转化为2类问题算法,主要原因有两个:首先,很难从多分算法的K个结果中找一个最好的类号;其次,有些文档可能被赋予0个类号,根本无法转化为2类问题。因此,在本文中,都是基于2类问题的探讨。
3.2评估方法评估文本分类系统的两个指标:准确率和查全率[4]。
准确率是所有判断的文本中与人工分类结果相吻合的文本所占的比率,其数学公式表示如下:
查全率是人工分类结果应有的文本与分类系统吻合的文本所占的比率,其数学公式表示如下:
准确率和查全率反映了分类质量的两个不同方面,两者必须综合考虑,不可偏废,因此,存在一种新的评估指标,F1测试值,其数学公式如下:
4基于本体的文本自动分类
结合本体技术,我们提出了基于本体的文本自动分类方法,如图1所示。
对训练集{A,B,C,…}进行预处理。预处理包括分词、词性标注、去除停用词,合并数字和人名等词汇,统计词频,提取特征词,建立本体,定义概念之间的关系。如图2。
对测试集{a,b,c,…}进行预处理,这里的预处理与训练集
中的预处理有所不同,只对标题和每段首尾句中的名词统计词频,从中提取特征词,给定权重。这样做目的是为了有效的降低维数,和提高分类的速度。这与目前已有的文本分类中特征词提取的方法有很大的不同,现有的方法通常从文章的各个部分提取特征词,这大大增加了特征词的维数,也很费时。研究表明,文章中重要的句子往往出现在每段的首尾。权重的设定我们满足下面的条件:一个词预测主题能力越强,权重就越大,反之,权重就越小。
计算文章的权值,若是高于以设定的阈值,则标注为该类,否则,排除为其他类。
根据测试结果,改变权值,这是一个反复实验的过程。
5实验结果与分析
笔者从网上下载文档100篇,计算机方面的50篇,提取所有文档的标题和每段的首尾句进行实验分析。同时建立对应的计算机本体,对所有文档进行文本分类。结果为:正确的46篇;正确率为92%。但文本分类的用时不足全文文本分类用时的十分之一。基于本体的文本分类在处理文档的标题和每段首尾句信息的基础上进行分类不仅算法简单实用,而且节约大量的时间。
6结束语
基于本体的文本分类是将文本分类技术与本体技术相结合,在对文档的标题和每段的首尾句信息进行处理的情况下即可进行分类。文中主要论述了本体的概念和应用,给出了基于本体的文本分类的结构图,并对每一个模块的功能进行了阐述,提出了进一步工作的方向。
参考文献
[1]Qi Y,Kung D,Wong E.An agent-based testing approach forWeb applications[C].29th Annual International Computer Software and Applications Confe-rence,COMPSAC 2005.Edinburgh,U K:[s.n.], 2005:45-50.
[2]蔡明,张体首.基于本体的搜索引擎研究,软件时空, 2006:12-3.
[3]谢叻,周儒容.二维半零件的简易造型方法和数控加工刀具轨迹生成.航空工艺技术,1999,1:15-17.
[4]贺贤明,戴坚峰.一种新型文本自动分类系统的研究与实现,微电子学与计算机,2004:10-21.
浙公网安备 33010602011771号