2012 年 12月 5 日随笔档案 - 书画还家

2012年12月5日

posted @ 2012-12-05 13:48 书画还家阅读(236) 评论(0) 推荐(0)

论文总结3

摘要：基于本体的WEB信息抽取系统 2012整个系统包括文件采集及预处理、文本转换、知识抽取３个部分。在信息抽取过程中需要一些外部资料，包括：①领域本体；②网站地图文件；③单词、短语、特殊字符词典和通用词典；④停用词、虚词、高频词词表；⑤分句规则；⑥词性集合及词性标注规则；⑦实体识别及标注规则；⑧知识抽取规则。信息抽取用到的算法包括：①爬网算法；②文件预处理算法；③文件存储算法；④分词和词表查询算法；⑤停用词、虚词、高频词去除算法；⑥分句算法；⑦词性标注算法；⑧命名实体识别及标注算法；⑨知识抽取算法。中文分词可使用工具，如中科院计算所汉语词法分析系统ＩＣＴＣＬＡＳ、斯坦福大学的汉语分词系统ｓｔａｎｆ阅读全文

posted @ 2012-12-05 13:46 书画还家阅读(234) 评论(0) 推荐(0)

论文总结2

摘要：基于内容的网页特征提取 2001使用专业网络爬虫获取网页，巨量网页数据保存在分布式的LDAP (轻量级目录服务协议)目录服务器中, 通过轻量级目录服务协议维护管理。分词词典通过提取过滤很多相关领域网页生成，手动更新。特征提取：正文分词然后计算词频；标记：将html文档生成标记树，选取一些重要标记；超链接：压缩链接树，压缩超链接森林。基于Web挖掘的专业文本特征提取方法研究 2007位置权重，目录和链接。基于模板抽取和丰富特征的药名词典生成 2009基于上下文的模板提取候选词，再用机器学习筛选。自学习的，英文词汇的。本文提出抽取上下文模板的步骤如下：1．E=已有药名的种子集合，T=文本集合(语料阅读全文

posted @ 2012-12-05 11:07 书画还家阅读(221) 评论(0) 推荐(0)

公告