随笔分类 -  网页信息提取相关

摘要:http://blog.csdn.net/hyde82/archive/2005/08/17/456281.aspxhttp://www-128.ibm.com/developerworks/cn/xml/x-xslt5/index.html#list%202改进 XSLT 编码的五种方法使您成为更优秀的 XSLT 程序员的技巧级别: 初级Benoit Marchal, 软件工程师, Pineap... 阅读全文

posted @ 2009-06-01 21:41 hesen 阅读(316) 评论(0) 推荐(0)

摘要:网上信息抽取技术纵览 (Information Extraction from World Wide Web-A Survey)Line Eikvil 原著 (1999.7) 陈鸿标 译 (2003.3)第一章 导论 信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成 表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点... 阅读全文

posted @ 2009-05-31 16:33 hesen 阅读(1149) 评论(1) 推荐(0)

摘要:目前看重的工具有ecplise或者pb。ecplise看了将近一个礼拜,需要掌握的东西太多了,而手头的资料又太少 ,等待以后有机会再学了,对自己来说他确实很吸引人啊。PB学起来倒是比较快,比较有成就感。博客中国和这里都是用CSS来确定叶面格式,很巧的是自己又重新捡起去年就看过的一本书来温习。书名是XML实用培训教程。还有一本书几个SQL专家极力推荐的,是《XML宝典》,不过自己看了一下,是2002... 阅读全文

posted @ 2009-05-31 15:51 hesen 阅读(462) 评论(0) 推荐(0)

摘要:(转自:http://www.ibm.com/developerworks/cn/xml/x-wbdm/)2001 年 6 月 01 日不可否认,万维网是到目前为止世界上最丰富和最密集的信息来源。但是,它的结构使它很难用系统的方法来利用信息。本文描述的方法和工具将使那些熟悉 Web 最常用技术的开发人员能快速而便捷地获取他们所需的以 Web 方式发布的信息。在信息时代快速成长起来的万维网导致各种各... 阅读全文

posted @ 2009-05-31 15:08 hesen 阅读(887) 评论(0) 推荐(0)

摘要:在没有做题目中所述的内容的时候,感觉这应该是很简单的东西,但是当真正开始做的时候却发现,有很多问题现在在这里写出来,供和我一样水平不高的参考一下。在写本文之前参照了一下文章欢迎使用CSDN论坛阅读器 : CSDN Reader(附全部源代码) 最新版本:20070212 http://www.cnblogs.com/feiyun0112/archive/2006/09/20/509783.html... 阅读全文

posted @ 2009-05-26 21:10 hesen 阅读(682) 评论(0) 推荐(0)

摘要:class Attribute : ICloneable { private string m_name; private string m_value; private char m_delim; public Attribute(string name, string value, char delim) { m_name = name; m_value = value; m_delim = ... 阅读全文

posted @ 2009-05-25 21:31 hesen 阅读(1064) 评论(1) 推荐(0)

摘要:功能: 将Html原码解析成IHTMLDocumet2对象,然后将IHTMLDocumet2转换成IHTMLDocumet3,使用DOMNode,将html显示成一棵树。此解析不执行任何脚本,不从网上下载任何资料,是一个纯文本的解析。 (方法Parse(string str) 一个轻量级Parsing实现。这个代码不会从网上下载任何资料,也不会执行任何脚本,纯属Parsing。Parsing是通过... 阅读全文

posted @ 2009-05-25 21:26 hesen 阅读(515) 评论(0) 推荐(0)

摘要:在该网站网址栏上输入javascript:alert(document.lastModified)IE5以上... ,此方法可以判断一个网页的最后更新时间,如果这个时间与现在的时间相同,说明是伪静态的,反之为静态的。 阅读全文

posted @ 2009-05-24 16:27 hesen 阅读(825) 评论(0) 推荐(0)

摘要:相关软件点击下载登录的处理。因为有些网页数据需要登陆后才能提取。这里要使用ieHTTPHeaders来提取登录时的提交信息。抓取网页HtmlAgilityPack.HtmlDocumenthtmlDoc;if(!string.IsNullOrEmpty(登录URL)){htmlDoc=htmlWeb.Load(登录URL,提交的用户验证信息,获取数据的网页URL);}else{htmlDoc=ht... 阅读全文

posted @ 2009-05-24 15:57 hesen 阅读(1085) 评论(1) 推荐(0)

摘要:本文是参照摩诘的Blog今天遇到这样一个问题,从政府网站中,根据一个关键数据KeyData,提取相关数据。这个问题可分为三部分解决:1)取得政府网站交互的方法;2)按照合适的方法,用HttpWebResponse,取得相关数据3)分析取回来的数据第一部分:获取网站交互信息,采用工具ieHTTPHeadersSetup.exe得到的数据如下:GET /search.asp?key=200600299... 阅读全文

posted @ 2009-05-24 15:52 hesen 阅读(854) 评论(0) 推荐(0)

摘要:摘 要 文章提出一种基于DOM的Web信息提取方法,通过归纳学习获得被提取信息的定位路径,利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式,根据网页元素与DOM节点对应关系,判断所获得信息源是否适用于已有提取模式。关键词 Web信息提取;DOM;XPath;XSLT;基于DOM的网页结构判断1 引言 Web信息的爆炸性增长,给我们带来了获取更多信息的机会,同时,也增加了在纷繁复杂... 阅读全文

posted @ 2009-05-24 15:50 hesen 阅读(2039) 评论(2) 推荐(0)

摘要:1.网上信息抽取技术纵览(点击下载) Line Eikvil 原著 (1999.7) 陈鸿标 译 (2003.3) 信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务…&... 阅读全文

posted @ 2009-05-24 14:42 hesen 阅读(653) 评论(0) 推荐(0)

摘要:通过程序自动的读取其它网站网页显示的信息,类似于爬虫程序。比方说我们有一个系统,要提取BaiDu网站上歌曲搜索排名。分析系统在根据得到的数据进行数据分析。为业务提供参考数据。 为了完成以上的需求,我们就需要模拟浏览器浏览网页,得到页面的数据在进行分析,最后把分析的结构,即整理好的数据写入数据库。那么我们的思路就是: 1、发送HttpRequest请求。 2、接收HttpResponse... 阅读全文

posted @ 2009-04-06 14:44 hesen 阅读(427) 评论(0) 推荐(0)

摘要:通过程序自动的读取其它网站网页显示的信息,类似于爬虫程序。比方说我们有一个系统,要提取BaiDu网站上歌曲搜索排名。分析系统在根据得到的数据进行数据分析。为业务提供参考数据。 为了完成以上的需求,我们就需要模拟浏览器浏览网页,得到页面的数据在进行分析,最后把分析的结构,即整理好的数据写入数据库。那么我们的思路就是: 1、发送HttpRequest请求。 2、接收HttpResponse... 阅读全文

posted @ 2009-04-06 00:29 hesen 阅读(1311) 评论(1) 推荐(0)

摘要:抓取和分析网页的类。主要功能有:1、提取网页的纯文本,去所有html标签和javascript代码2、提取网页的链接,包括href和frame及iframe3、提取网页的title等(其它的标签可依此类推,正则是一样的)4、可以实现简单的表单提交及cookie保存 using System; using System.Data; using System.Configuration; using ... 阅读全文

posted @ 2009-04-06 00:16 hesen 阅读(702) 评论(0) 推荐(0)