文章分类 -  分类与类聚

 
贝叶斯网络
摘要:NB(贝叶斯)资料下载:点击下载3.5 贝叶斯网络  贝叶斯网络是一系列变量的联合概率分布的图形表示。    一般包含两个部分,一个就是贝叶斯网络结构图,这是一个有向无环图(DAG),其中图中的每个节点代表相应的变量,节点之间的连接关系代表了贝叶斯网络的条件独立语义。另一部分,就是节点和节点之间的条件概率表(CPT),也就是一系列的概率值。如果一个贝叶斯网络提供了足够的条件概率值,足以计算任何给定的联合概率,我们就称,它是可计算的,即可推理的。3.5.1 贝叶斯网络基础  首先从一个具体的实例(医疗诊断的例子)来说明贝叶斯网络的构造。  假设:  命题S(moker):该患者是一个吸烟者  命 阅读全文
posted @ 2010-12-24 13:09 jorbin 阅读(1864) 评论(0) 推荐(0)
语料库研究与应用综述
摘要:目录一 概述二 中国语料库建设的基本情况三 语料库的加工、管理和规范四 语料库在语言研究中的的应用五 参考文献 语料库研究与应用综述 一 概述 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四 阅读全文
posted @ 2010-12-24 13:03 jorbin 阅读(4268) 评论(0) 推荐(0)
文本特征提取方法研究
摘要:一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。在浩如烟海的网络信息中,8 阅读全文
posted @ 2010-12-24 13:00 jorbin 阅读(2961) 评论(0) 推荐(0)
基于朴素贝叶斯的文本分类算法
摘要:作者: 灵魂机器联系方式:soulmachine@gmail.com作者博客:www.yanjiuyanjiu.com摘要:常用的文本分类方法有支持向量机、K-近邻算法和朴素贝叶斯。其中朴素贝叶斯具有容易实现,运行速度快的特点,被广泛使用。本文详细介绍了朴素贝叶斯的基本原理,讨论了两种常见模型:多项式模型(MM)和伯努利模型(BM),实现了可运行的代码,并进行了一些数据测试。关键字:朴素贝叶斯;文本分类Text Classification Algorithm Based on Naive BayesAuthor: soulmachineEmail:soulmachine@gmail.comB 阅读全文
posted @ 2010-12-24 12:58 jorbin 阅读(8858) 评论(0) 推荐(0)
基于量子自组织网络的Web文本自动分类方法
摘要:徐平1,2,徐建中1(1.哈尔滨工程大学,黑龙江哈尔滨150001;2.大庆石油学院,黑龙江大庆163318)摘要:针对Web信息挖掘中的文本自动分类问题,提出了一种基于模糊特征向量和量子自组织特征映射网络的分类方法。该方法在特征提取时充分考虑了特征项在文档中的Web位置信息,构造出模糊特征向量,使自动分类原则更接近手工分类方法。关键词:数据挖掘;文本分类;学习算法Document Automatic Classification Method Based on QuantumSelf-organization Characters Mapping NetworkXU ping1,2,Xu J 阅读全文
posted @ 2010-12-24 12:56 jorbin 阅读(423) 评论(0) 推荐(0)
KNN和SVM算法在中文文本自动分类技术上的比较研究
摘要:马建斌‘,李谨,滕桂法’,王芳’,赵洋’摘要:中文文本分类技术在中文信息智能处理方面具有十分重要的作用比如:中文信息检索和搜索引攀等KNN、贝叶斯、SVM等算法都可以应用到中文文本分类技术上,本研究分析和比较了KNN和SVM两种分类算法,并通过实验比较这两种算法对中文文本分类技术的效果。结果表明:SVM算法较优,是一种较好的中文文本分类算法。ThecomParisonstudiesonthealgorithmofKNNandSVMforchinesetextClassificationAbtraet::Chinesetextelassifieation15importantforehinese 阅读全文
posted @ 2010-12-24 12:54 jorbin 阅读(1820) 评论(0) 推荐(0)
基于本体的文本自动分类
摘要:沈阳工业大学王宏生张琳[摘要]随着计算机技术的发展,各个领域的信息层出不穷,使得文本分类显得十分重要。针对当前文本分类存在的不足,提出了基于本体的文本自动分类方法。该方法将文本自动分类技术与本体技术相结合,并提出只从提取每段首尾句中提取特征词的方法,提高了文本自动分类的效率。1引言随着互联网的迅速发展和日益普及,网上的信息也越来越多。其中所包含的各种各样的信息情报、科技文献和新闻等都需要管理,为有效的保留大量的文本集合,对文本进行有效的管理方法之一就是将它们进行系统的分类。文本自动分类(Automatic Text Categorization)就是利用计算机对文本集(或其他实体或对象)按照一 阅读全文
posted @ 2010-12-24 12:52 jorbin 阅读(792) 评论(0) 推荐(0)
一个基于概念的中文文本分类模型
摘要:chinacir.com.cn2008-4-21共有404人次浏览 文字大小:[大中小] 收藏本页一 、引言 在过去几年中随着科学技术的迅猛发展,特别是随着因特网的快速发展,各种信息情报激增,特别是网上信息浩如烟海,人们可能通过因特网能很快地得到大量的资料,因此如何对所获得资料进行科学有效地管理是摆在人们面前一个不可回避而又很有意义的问题。对资料进行管理一个很常见的方法就是对它们系统地进行分类。 显然,用人工对文本材料进行分类的过程是通读所有文章,然后再对它们进行归类保存。当然这需要许多具有丰富经验和专门知识的分类人员做大量的工作,显然这个过程具有周期长、费用高、效率低的特点,在信息爆炸的今 阅读全文
posted @ 2010-12-24 12:51 jorbin 阅读(352) 评论(0) 推荐(0)
朴素贝叶斯中文文本分类器的研究与实现(2)
摘要:转载请保留作者信息:作者:88250Blog:http:/blog.csdn.net/DL88250MSN & Gmail & QQ:DL88250@gmail.com引言将文本信息按预先指定的类别归类的技术可以追溯到上世纪60年代。不过,在最近的10年里,由于文本信息数字化而带来的海量数据,导致我们不得不将这些信息进行分类。由此,文本信息的自动分类得到了广泛的关注和快速的发展。一 些研究表明,机器学习技术解决这个问题是较为有效的方法:通过一种广义的诱导学习建立相应的自动分类器,形成预先文档信息的一个或多个特征的分类集合。基 于机器学习的分类方式在分类效果和灵活性上都比之前基于知识工程和专家系 阅读全文
posted @ 2010-12-24 12:47 jorbin 阅读(7884) 评论(1) 推荐(0)
svmcls文本分类程序(含C++源代码+语料库)完整版
摘要:下载地址:http://download.csdn.net/source/2304209 阅读全文
posted @ 2010-12-24 12:30 jorbin 阅读(243) 评论(0) 推荐(0)
文本分类语料库
摘要:名称:文本分类语料库关键词:文本分类、互联网语料摘要:文本分类语料库设计为基于搜狐分类目录手工编辑的网页分类结果组织成的网页、分类结果及基准分类算法在内的综合数据集合。为各种从事中文文本分类工作的研究者提供一个标准的较大规模的研究平台。介绍:文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。语料库统计的意义:提供一个较大规模的标准中文文本分类测试平台。应用案例:中文文本分类,主题跟踪与检测等。说明:语料库数据包括:[1] 用于分类的新闻语料,按照SOGOU-T网页语料库格式整理[2] 分类体系说 阅读全文
posted @ 2010-12-24 12:27 jorbin 阅读(915) 评论(0) 推荐(0)
聚类分析
摘要:聚类分析概述  聚类分析(Cluster Analysis)又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。  聚类分 阅读全文
posted @ 2010-12-24 12:21 jorbin 阅读(1509) 评论(0) 推荐(0)