文章分类 -  信息抽取

基于WEB资源的信息抽取技术
摘要:郭志红(上海交通大学情报研究所,上海200030)摘要web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。如何将这些信息抽取出来,转化成结构化信息,供其它信息集成系统所利用,成为该顶域的研究热点。本文介绍了一个简单的web信息抽取模型,对基于该模型的wrapper归纳技术进行了探讨,并描述了一个wrapper自动生成系统的原型。关键词信息抽取wrapper归纳技术自动生成原型系统引言Internet是一个巨大的信息资源库,它上面有着各种各样的在线信息:天气预报,股票价格,商品目录,政府法规和税收政策,个人爱好,研究报告等等。所有这些web资源信息都有两个共同的 阅读全文
posted @ 2013-02-03 14:50 烤德 阅读(655) 评论(0) 推荐(0)
Web信息抽取技术综述
摘要:摘要:本文介绍了web数据抽取的发展历史,总结了近年来国内外web数据抽取研究中所使用方法和研究现状,并介绍了数据抽取的评价指标,最后提出了目前web数据抽取仍然存在的问题。关键词:web;数据抽取;包装器 0、引言 随着计算机广泛使用,大量有用的信息以电子文档的方式出现。而伴随internet的普及,很多有用的信息正在以惊人的速度,出现在internet中不同站点的web页面上。但web上的信息都是半结构化或非结构化的,主要以HTML语言的形式出现,不能直接用于分析处理。因此,如何将web上用户感兴趣的有用信息抽取出来,以便用户根据需要对数据加以分析,就成了现在数据抽取方面的研究热点... 阅读全文
posted @ 2013-02-03 14:39 烤德 阅读(1720) 评论(0) 推荐(0)
HtmlParser实现的爬虫
摘要:packageparser;importjava.io.BufferedReader;importjava.io.BufferedWriter;importjava.io.FileWriter;importjava.io.IOException;importjava.io.InputStream;importjava.io.InputStreamReader;importjava.net.MalformedURLException;importjava.net.URL;/***基本能实现网页抓取,不过要手动输入URL将整个html内容保存到指定文件**@authorchenguoyong**/ 阅读全文
posted @ 2013-01-14 22:29 烤德 阅读(743) 评论(0) 推荐(0)
htmlParser简单介绍
摘要:一,数据组织分析:HtmlParser主要靠Node、AbstractNode和Tag来表达Html,因为Remark和Text相对简单,此处就将其忽略了。Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现,Node定义了与页面树结构所表达的页面Page对象,定义了获取父、子、兄弟节点的方法,定义了节点到对应html文本的方法,定义了该节点对应的起止位置,定义了过滤方法,定义了Visitor访问机制。AbstractNode是Node的一种具体的类实现,起到构成树形结构的作用,除了同具体Node相关的accetp方法,toString,toHtml,toPlainTe 阅读全文
posted @ 2013-01-14 22:27 烤德 阅读(1435) 评论(0) 推荐(0)
HTMLParser使用举例
摘要:htmlparser使用举例HTMLParser一个解析web页面的开源类库,他有两种主要使用方式,extraction和transformation.前者就是从网页中萃取出你要的东西,后者就是把web页面中的一些内容改为(转换为)你想要的格式.下面来看看这两种使用情况的各自特点.Extraction萃取例如下面的几种常见的使用方式:*textextraction,萃取web页面中的文本文字*linkextraction,萃取web页面中的连接包括url和email地址,还可以自定义其他标签*screenscraping,抓去web页面内容*resourceextraction,萃取web页面 阅读全文
posted @ 2013-01-14 22:21 烤德 阅读(197) 评论(0) 推荐(0)