信息抽取 - 文章分类 - 烤德

基于WEB资源的信息抽取技术

摘要：郭志红（上海交通大学情报研究所，上海200030）摘要web资源含有大量的有用信息，但由于它们欠结构化，不能为传统的数据库型查询系统所利用。如何将这些信息抽取出来，转化成结构化信息，供其它信息集成系统所利用，成为该顶域的研究热点。本文介绍了一个简单的web信息抽取模型，对基于该模型的wrapper归纳技术进行了探讨，并描述了一个wrapper自动生成系统的原型。关键词信息抽取wrapper归纳技术自动生成原型系统引言Internet是一个巨大的信息资源库，它上面有着各种各样的在线信息：天气预报，股票价格，商品目录，政府法规和税收政策，个人爱好，研究报告等等。所有这些web资源信息都有两个共同的阅读全文

posted @ 2013-02-03 14:50 烤德阅读(655) 评论(0) 推荐(0)

Web信息抽取技术综述

摘要：摘要:本文介绍了web数据抽取的发展历史,总结了近年来国内外web数据抽取研究中所使用方法和研究现状,并介绍了数据抽取的评价指标,最后提出了目前web数据抽取仍然存在的问题。关键词:web;数据抽取;包装器 0、引言随着计算机广泛使用,大量有用的信息以电子文档的方式出现。而伴随internet的普及,很多有用的信息正在以惊人的速度,出现在internet中不同站点的web页面上。但web上的信息都是半结构化或非结构化的,主要以HTML语言的形式出现,不能直接用于分析处理。因此,如何将web上用户感兴趣的有用信息抽取出来,以便用户根据需要对数据加以分析,就成了现在数据抽取方面的研究热点... 阅读全文

posted @ 2013-02-03 14:39 烤德阅读(1720) 评论(0) 推荐(0)

HtmlParser实现的爬虫

摘要：packageparser;importjava.io.BufferedReader;importjava.io.BufferedWriter;importjava.io.FileWriter;importjava.io.IOException;importjava.io.InputStream;importjava.io.InputStreamReader;importjava.net.MalformedURLException;importjava.net.URL;/***基本能实现网页抓取，不过要手动输入URL将整个html内容保存到指定文件**@authorchenguoyong**/ 阅读全文

posted @ 2013-01-14 22:29 烤德阅读(743) 评论(0) 推荐(0)

htmlParser简单介绍

摘要：一，数据组织分析：HtmlParser主要靠Node、AbstractNode和Tag来表达Html，因为Remark和Text相对简单，此处就将其忽略了。Node是形成树结构表示HTML的基础，所有的数据表示都是接口Node的实现，Node定义了与页面树结构所表达的页面Page对象，定义了获取父、子、兄弟节点的方法，定义了节点到对应html文本的方法，定义了该节点对应的起止位置，定义了过滤方法，定义了Visitor访问机制。AbstractNode是Node的一种具体的类实现，起到构成树形结构的作用，除了同具体Node相关的accetp方法，toString，toHtml，toPlainTe 阅读全文

posted @ 2013-01-14 22:27 烤德阅读(1435) 评论(0) 推荐(0)

HTMLParser使用举例

摘要：htmlparser使用举例HTMLParser一个解析web页面的开源类库,他有两种主要使用方式,extraction和transformation.前者就是从网页中萃取出你要的东西,后者就是把web页面中的一些内容改为(转换为)你想要的格式.下面来看看这两种使用情况的各自特点.Extraction萃取例如下面的几种常见的使用方式:*textextraction,萃取web页面中的文本文字*linkextraction,萃取web页面中的连接包括url和email地址,还可以自定义其他标签*screenscraping,抓去web页面内容*resourceextraction,萃取web页面阅读全文

posted @ 2013-01-14 22:21 烤德阅读(197) 评论(0) 推荐(0)

文章分类 - 信息抽取