论文总结2

基于内容的网页特征提取 2001

使用专业网络爬虫获取网页,巨量网页数据保存在分布式的LDAP (轻量级目录服务协议)目录服务器中, 通过轻量级目录服务协议维护管理。分词词典通过提取过滤很多相关领域网页生成,手动更新。特征提取:正文分词然后计算词频;标记:将html文档生成标记树,选取一些重要标记;超链接:压缩链接树,压缩超链接森林。

 

基于Web挖掘的专业文本特征提取方法研究 2007

位置权重,目录和链接。

 

基于模板抽取和丰富特征的药名词典生成 2009

基于上下文的模板提取候选词,再用机器学习筛选。自学习的,英文词汇的。

本文提出抽取上下文模板的步骤如下:
1.E=已有药名的种子集合,T=文本集合(语料)
2.在语料T中,找到E中每个药名的上下文(context),组成集合C    窗口前后设定大小不一样
3.从上下文集合C中,确定引导词      基于IDF的方法,算权重
4.对每个引导词确定的上下文集合,构建有向连通图
5.根据权值剪枝,确定最后包含上下文信息的模板,计算处理后的上下文重复度,按重复度的大小排序,取排名前M个为最终目标模板。

本文从以下几个角度选择药名的词特征:
(1)采取bag ofwords的形式,以每个单词作为特征,不考虑单词之间的顺序关系。一些词在测试集的位置和训练集的位置不一样,但是却表达同样的意思,所以bag ofwords选取特征的方式,可以囊括到这些词。
(2)对候选药名的每一组成单词选择单元、二元、三元词特征。与前面所述相反,存在一些词随着出现位置的变化,意思也会改变,利用单元、二元、三元词特征可以弥补那些位置变化意思也变化的词;
(3)选取边界特征,分别从候选药名左边界开始选取单元、二元、三元词特征,再从右边界选取单元、二元、三元词特征。这里将n.gram与位置信息结合,考虑候选药名边界特征。
(4)以药名的前l到6个字母分别作为特征。字母特征利用了英文单词具有词缀、词干、词根的信息,很多药名虽然不相同,但是却含有相同的词缀、词干、词根。以前面1到6个字母为特征可以捕捉到药名的词缀信息。
(5)以药名的后1到6个字母分别作为特征。如第(4)条同样的原理,这样的选取方法可以捕捉到药名的词根信息。
(6)设置滑动窗口,确定大小S,选取滑动窗口内的部分字母作为特征。如第(4)条同样的原理,这样的选取方法可以捕捉到药名的词干信息。
(7)选取词型特征,将αβγ用大写字母G来代替,将数字0-9用0代替,将I、II、HI用R来替。这里采取正则表达式的方式,可以使希腊字母、数字等特殊符号做统一处理。因为训练集中不可能包含所有的希腊字母或数字,但是具有希腊字母或数字组成的药名却出现在测试集中,为防止将这样的药名漏掉,故用上述第(7)条方式选取特征。

 

元事件与主题事件抽取技术研究综述

元事件抽取研究的主要方法有模式匹配和机器学习两大类。主题事件抽取有基于事件框架的和基于本体的。

给了一些研究现状和发展趋势。

 

面向文本的事件信息抽取方法的研究 2012

研究面向文本的事件信息抽取工作,建立一个事件信息抽取系统。该系统首先过滤包含关键字的原始语料; 然后采用层次聚类( Hierarchical,HCL) 和最长公共子序列算法相结合的方法抽取事件信息,得到最初的模式; 最后通过是否包含关键字进行模式获取,进而提取信息,最终得到事件要素。

事件信息抽取系统分为7 个模块,分别为: 过滤语料、最长公共子序列、句子聚类向量、层次聚类、聚类模式过滤、模式获取和信息提取。

 

一种基于信息熵的web 信息提取的方法研究 2012

提出了基于信息熵和DOM树的提取web正文信息的方法,利用文档对象模型技术提取网页包含的内容,将得到的信息融合成信息列表,再利用熵原理从信息列表中识别出有序信息列表,通过设置内容长度阈值,将无关的信息结点过滤掉,只剩下正文信息。

 

自然语言信息抽取中的机器学习方法研究 2005

模式匹配和机器学习,基于规则的和基于统计的,后者有无监督、有监督、半监督。

特征选择

主要有四种策略用于统计学习中的特征选择。

第一种策略称为“包装器方法”(wrapper approach),它的思想是先生成不同特征子集,然后通过执行学习算法和测量结果分类器的准确性对各个子集进行评估。各个特征子集一般通过前向选择或后向删除方法来生成;

第二种策略是将所有可能的特征包含到模型中,但对模型中的参数值引入一个惩罚值,这将导致与无用特征相关的参数将变得非常小,甚至可能为0;

第三个策略是计算特征的某种相关性,然后删除相关性低的特征。测度特征相关性一个最简单的方法是计算一个特征和某类别的互信息。不过,这种相关性测度方法却不能捕捉特征之间的交互性。另外几种方法已经被提出用于确定这种特征间的交互性,如RELIEFF,马尔可夫链(Markov blankets)等方法;

第四个策略是先拟合一个简单的模型,然后分析这个被拟合的模型以确定相关的特征。如Chow描述了一个高效的算法用于对一个数据集拟合一个树结构的贝叶斯网络,这个网络可以被用来分析以删除对类别影响较小的特征。

信息抽取的统计学习方法比较

1最大熵方法

2隐马尔可夫模型方法(HMMs)

3最大熵隐马尔可夫模型方法(MEMMs) 标注偏置问题

4条件随机场方法(Conditional Random Fields) 应用于命名实体识别、文本浅层分析等信息抽取任务的实验,实验结果显示该模型具有良好的性能。

5核(kernel)的方法

当前对各种集成技术(如boosting,bagging和Stacking等)的研究非常热门。性能变好,但是系统变复杂。

弱指导学习

互助训练Co—Training,主动学习(Active Learning)

发展趋势

首先它的模型、算法还需要不断改善。将人工规则加入到统计模型中,特别是如何将各种语义约束规则加入到模型中是需要进一步研究的内容。

再者,目前的各种主动学习方法均是基于单个学习模型的,可以扩展为基于集成(ensemble)的主动学习,一定会进一步减少语料标注的代价。

此外,为多学习器的集成建立一个统一的理论框架。

posted @ 2012-12-05 11:07  书画还家  阅读(204)  评论(0编辑  收藏  举报