摘要: 基于本体的WEB信息抽取系统 2012整个系统包括文件采集及预处理、文本转换、知识抽取3个部分。在信息抽取过程中需要一些外部资料,包括:①领域本体;②网站地图文件;③单词、短语、特殊字符词典和通用词典;④停用词、虚词、高频词词表;⑤分句规则;⑥词性集合及词性标注规则;⑦实体识别及标注规则;⑧知识抽取规则。信息抽取用到的算法包括:①爬网算法;②文件预处理算法;③文件存储算法;④分词和词表查询算法;⑤停用词、虚词、高频词去除算法;⑥分句算法;⑦词性标注算法;⑧命名实体识别及标注算法;⑨知识抽取算法。中文分词可使用工具,如中科院计算所汉语词法分析系统ICTCLAS、斯坦福大学的汉语分词系统stanf 阅读全文
posted @ 2012-12-05 13:46 书画还家 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 基于内容的网页特征提取 2001使用专业网络爬虫获取网页,巨量网页数据保存在分布式的LDAP (轻量级目录服务协议)目录服务器中, 通过轻量级目录服务协议维护管理。分词词典通过提取过滤很多相关领域网页生成,手动更新。特征提取:正文分词然后计算词频;标记:将html文档生成标记树,选取一些重要标记;超链接:压缩链接树,压缩超链接森林。基于Web挖掘的专业文本特征提取方法研究 2007位置权重,目录和链接。基于模板抽取和丰富特征的药名词典生成 2009基于上下文的模板提取候选词,再用机器学习筛选。自学习的,英文词汇的。本文提出抽取上下文模板的步骤如下:1.E=已有药名的种子集合,T=文本集合(语料 阅读全文
posted @ 2012-12-05 11:07 书画还家 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 基于模式匹配的军事演习情报信息抽取术 2009信息抽取技术可分为三类:基于自然语言处理(Natural Language Processing,NLP)的方式、基于模式匹配的方式和基于统计学习的方式。基于统计学习的方式主要有HMM、最大熵、最大熵隐马尔可夫、条件随机域等。由于以统计为主的方法只有在大量训练语料的前提下才能取得较好的效果,因此在目前成熟语料少、标注难度大的情况下,尚不占主导地位。本文是基于模式匹配的事件抽取。模式学习系统:基于人工语料标注的IE模式学习系统;基于人工语料分类的IE模式学习系统;基于种子模式的自举IE模式学习系统和基于WordNet及语料标注的IE模式学习系统。本文 阅读全文
posted @ 2012-12-04 20:54 书画还家 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 转载的地址:http://blog.csdn.net/heavendai/article/details/7029465Clustering 中文翻译作“聚类”,简单地说就是把相似的东西分到一组,同 Classification (分类)不同,对于一个 classifier ,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做supervised learning (监督学习),而在聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西 阅读全文
posted @ 2012-11-08 15:19 书画还家 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 原文地址:http://www.cnblogs.com/seacode/archive/2011/03/09/1979246.htmlknn的思想比较简单,从训练样本中找出K个与其最相近的样本,然后看这k个样本中哪个类别的样本多,则待判定的值(或说抽样)就属于这个类别。公式表示为:1,对所有的样本求距离 ,然后选出K个最近的2,从这k个样本中找出含有样本最多的所属类别:缺点:1,k值需要预先设定,而不能自适应。2 当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。如下图:,绿色圆要被决定赋予哪个类,是红色三角形 阅读全文
posted @ 2012-11-08 15:14 书画还家 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 原文地址:http://www.cnblogs.com/heaad/archive/2010/12/23/1914725.html作者还有自己原创的代码,觉得这个作者讲的很好,很清楚。遗传算法 ( GA , Genetic Algorithm ) ,也称进化算法 。 遗传算法是受达尔文的进化论的启发,借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。一.进化论知识 作为遗传算法生物背景的介绍,下面内容了解即可: 种群(Population):生物的进化以群体的形式进行,这样的一个群体称为种群。 个体:组成种群的单个生物。 基因 ( Gene ... 阅读全文
posted @ 2012-11-08 15:02 书画还家 阅读(160) 评论(0) 推荐(0) 编辑