摘要: 1、信息增益IGInfGain (W)=H(C)-H(C|W )=P(W)∑iP(Ci|W)logP(Ci|W)/P(Ci)+P(`W)∑iP(Ci|`W)logP(Ci|`W )/P(Ci)2、期望交叉熵ECECrossEntryTxt(W) = P(W)∑iP(Ci|W)logP(Ci|W)/P(Ci)3、互信息MIMutualInfoTxt(W) = ∑iP(Ci)logP(W|Ci)/P(W)4、改进的互信息IMIIMI(W) = ∑iP(Ci)|logP(W|Ci)/P(W)|5、互信息比值MutualInfoRatio(W)=0, if MaxInfo=0 LessMaxInfo= 阅读全文
posted @ 2012-12-05 13:48 书画还家 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 基于本体的WEB信息抽取系统 2012整个系统包括文件采集及预处理、文本转换、知识抽取3个部分。在信息抽取过程中需要一些外部资料,包括:①领域本体;②网站地图文件;③单词、短语、特殊字符词典和通用词典;④停用词、虚词、高频词词表;⑤分句规则;⑥词性集合及词性标注规则;⑦实体识别及标注规则;⑧知识抽取规则。信息抽取用到的算法包括:①爬网算法;②文件预处理算法;③文件存储算法;④分词和词表查询算法;⑤停用词、虚词、高频词去除算法;⑥分句算法;⑦词性标注算法;⑧命名实体识别及标注算法;⑨知识抽取算法。中文分词可使用工具,如中科院计算所汉语词法分析系统ICTCLAS、斯坦福大学的汉语分词系统stanf 阅读全文
posted @ 2012-12-05 13:46 书画还家 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 基于内容的网页特征提取 2001使用专业网络爬虫获取网页,巨量网页数据保存在分布式的LDAP (轻量级目录服务协议)目录服务器中, 通过轻量级目录服务协议维护管理。分词词典通过提取过滤很多相关领域网页生成,手动更新。特征提取:正文分词然后计算词频;标记:将html文档生成标记树,选取一些重要标记;超链接:压缩链接树,压缩超链接森林。基于Web挖掘的专业文本特征提取方法研究 2007位置权重,目录和链接。基于模板抽取和丰富特征的药名词典生成 2009基于上下文的模板提取候选词,再用机器学习筛选。自学习的,英文词汇的。本文提出抽取上下文模板的步骤如下:1.E=已有药名的种子集合,T=文本集合(语料 阅读全文
posted @ 2012-12-05 11:07 书画还家 阅读(204) 评论(0) 推荐(0) 编辑