网页信息提取相关 - 随笔分类 - hesen

改进 XSLT 编码的五种方法

摘要：http://blog.csdn.net/hyde82/archive/2005/08/17/456281.aspxhttp://www-128.ibm.com/developerworks/cn/xml/x-xslt5/index.html#list%202改进 XSLT 编码的五种方法使您成为更优秀的 XSLT 程序员的技巧级别: 初级Benoit Marchal, 软件工程师, Pineap... 阅读全文

posted @ 2009-06-01 21:41 hesen 阅读(317) 评论(0) 推荐(0)

网上信息抽取技术纵览(转)

摘要：网上信息抽取技术纵览 (Information Extraction from World Wide Web-A Survey)Line Eikvil 原著（1999.7）陈鸿标译 (2003.3)第一章导论信息抽取（Information Extraction: IE）是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点... 阅读全文

posted @ 2009-05-31 16:33 hesen 阅读(1156) 评论(1) 推荐(0)

XML的显示

摘要：目前看重的工具有ecplise或者pb。ecplise看了将近一个礼拜，需要掌握的东西太多了，而手头的资料又太少，等待以后有机会再学了，对自己来说他确实很吸引人啊。PB学起来倒是比较快，比较有成就感。博客中国和这里都是用CSS来确定叶面格式，很巧的是自己又重新捡起去年就看过的一本书来温习。书名是XML实用培训教程。还有一本书几个SQL专家极力推荐的，是《XML宝典》，不过自己看了一下，是2002... 阅读全文

posted @ 2009-05-31 15:51 hesen 阅读(463) 评论(0) 推荐(0)

基于 Web 的数据挖掘 (自动抽取用 HTML、XML 和 Java 编写的信息)

摘要：(转自:http://www.ibm.com/developerworks/cn/xml/x-wbdm/)2001 年 6 月 01 日不可否认，万维网是到目前为止世界上最丰富和最密集的信息来源。但是，它的结构使它很难用系统的方法来利用信息。本文描述的方法和工具将使那些熟悉 Web 最常用技术的开发人员能快速而便捷地获取他们所需的以 Web 方式发布的信息。在信息时代快速成长起来的万维网导致各种各... 阅读全文

posted @ 2009-05-31 15:08 hesen 阅读(891) 评论(0) 推荐(0)

转 c# 模拟Asp.net页面中的某个按钮的点击，向web服务器发出请求

摘要：在没有做题目中所述的内容的时候，感觉这应该是很简单的东西，但是当真正开始做的时候却发现，有很多问题现在在这里写出来，供和我一样水平不高的参考一下。在写本文之前参照了一下文章欢迎使用CSDN论坛阅读器 : CSDN Reader(附全部源代码) 最新版本：20070212 http://www.cnblogs.com/feiyun0112/archive/2006/09/20/509783.html... 阅读全文

posted @ 2009-05-26 21:10 hesen 阅读(682) 评论(0) 推荐(0)

C# html分析

摘要：class Attribute : ICloneable { private string m_name; private string m_value; private char m_delim; public Attribute(string name, string value, char delim) { m_name = name; m_value = value; m_delim = ... 阅读全文

posted @ 2009-05-25 21:31 hesen 阅读(1067) 评论(1) 推荐(0)

将Html原码解析成IHTMLDocumet对象,然后使用DOMNode将html显示成一棵树（转载

摘要：功能：将Html原码解析成IHTMLDocumet2对象，然后将IHTMLDocumet2转换成IHTMLDocumet3，使用DOMNode,将html显示成一棵树。此解析不执行任何脚本，不从网上下载任何资料，是一个纯文本的解析。 (方法Parse(string str) 一个轻量级Parsing实现。这个代码不会从网上下载任何资料，也不会执行任何脚本，纯属Parsing。Parsing是通过... 阅读全文

posted @ 2009-05-25 21:26 hesen 阅读(515) 评论(0) 推荐(0)

查看网页更新时间和判断网页是否伪静态的方法（转）

摘要：在该网站网址栏上输入javascript:alert(document.lastModified)IE5以上... ，此方法可以判断一个网页的最后更新时间，如果这个时间与现在的时间相同，说明是伪静态的，反之为静态的。阅读全文

posted @ 2009-05-24 16:27 hesen 阅读(827) 评论(0) 推荐(0)

使用HtmlAgilityPack批量抓取网页数据

摘要：相关软件点击下载登录的处理。因为有些网页数据需要登陆后才能提取。这里要使用ieHTTPHeaders来提取登录时的提交信息。抓取网页HtmlAgilityPack.HtmlDocumenthtmlDoc;if(!string.IsNullOrEmpty(登录URL)){htmlDoc=htmlWeb.Load(登录URL,提交的用户验证信息,获取数据的网页URL);}else{htmlDoc=ht... 阅读全文

posted @ 2009-05-24 15:57 hesen 阅读(1085) 评论(1) 推荐(0)

自动提取网页的信息，并分析之 ()

摘要：本文是参照摩诘的Blog今天遇到这样一个问题，从政府网站中，根据一个关键数据KeyData，提取相关数据。这个问题可分为三部分解决：1）取得政府网站交互的方法；2）按照合适的方法，用HttpWebResponse，取得相关数据3）分析取回来的数据第一部分：获取网站交互信息，采用工具ieHTTPHeadersSetup.exe得到的数据如下：GET /search.asp?key=200600299... 阅读全文

posted @ 2009-05-24 15:52 hesen 阅读(856) 评论(0) 推荐(0)

基于DOM的Web信息提取方法 (转)

摘要：摘要文章提出一种基于DOM的Web信息提取方法，通过归纳学习获得被提取信息的定位路径，利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式，根据网页元素与DOM节点对应关系，判断所获得信息源是否适用于已有提取模式。关键词 Web信息提取；DOM；XPath；XSLT；基于DOM的网页结构判断1 引言 Web信息的爆炸性增长，给我们带来了获取更多信息的机会，同时，也增加了在纷繁复杂... 阅读全文

posted @ 2009-05-24 15:50 hesen 阅读(2055) 评论(2) 推荐(0)

一堆信息抽取的资料文档（提供下载链接）(转)

摘要：1.网上信息抽取技术纵览（点击下载） Line Eikvil 原著（1999.7）陈鸿标译 (2003.3) 信息抽取（Information Extraction: IE）是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。这就是信息抽取的主要任务…&... 阅读全文

posted @ 2009-05-24 14:42 hesen 阅读(653) 评论(0) 推荐(0)

抓取Web网页数据分析(c#)

摘要：通过程序自动的读取其它网站网页显示的信息，类似于爬虫程序。比方说我们有一个系统，要提取BaiDu网站上歌曲搜索排名。分析系统在根据得到的数据进行数据分析。为业务提供参考数据。为了完成以上的需求，我们就需要模拟浏览器浏览网页，得到页面的数据在进行分析，最后把分析的结构，即整理好的数据写入数据库。那么我们的思路就是： 1、发送HttpRequest请求。 2、接收HttpResponse... 阅读全文

posted @ 2009-04-06 14:44 hesen 阅读(429) 评论(0) 推荐(0)

抓取Web网页数据分析(c#)

摘要：通过程序自动的读取其它网站网页显示的信息，类似于爬虫程序。比方说我们有一个系统，要提取BaiDu网站上歌曲搜索排名。分析系统在根据得到的数据进行数据分析。为业务提供参考数据。为了完成以上的需求，我们就需要模拟浏览器浏览网页，得到页面的数据在进行分析，最后把分析的结构，即整理好的数据写入数据库。那么我们的思路就是： 1、发送HttpRequest请求。 2、接收HttpResponse... 阅读全文

posted @ 2009-04-06 00:29 hesen 阅读(1315) 评论(1) 推荐(0)

C#抓取和分析网页的类（转）

摘要：抓取和分析网页的类。主要功能有：1、提取网页的纯文本，去所有html标签和javascript代码2、提取网页的链接，包括href和frame及iframe3、提取网页的title等(其它的标签可依此类推，正则是一样的)4、可以实现简单的表单提交及cookie保存 using System; using System.Data; using System.Configuration; using ... 阅读全文

posted @ 2009-04-06 00:16 hesen 阅读(702) 评论(0) 推荐(0)

专注于.net

随笔分类 - 网页信息提取相关

改进 XSLT 编码的五种方法

网上信息抽取技术纵览(转)

XML的显示

基于 Web 的数据挖掘 (自动抽取用 HTML、XML 和 Java 编写的信息)

转 c# 模拟Asp.net页面中的某个按钮的点击，向web服务器发出请求

C# html分析

将Html原码解析成IHTMLDocumet对象,然后使用DOMNode将html显示成一棵树（转载

查看网页更新时间和判断网页是否伪静态的方法（转）

使用HtmlAgilityPack批量抓取网页数据

自动提取网页的信息，并分析之 ()

基于DOM的Web信息提取方法 (转)

一堆信息抽取的资料文档（提供下载链接）(转)

抓取Web网页数据分析(c#)

抓取Web网页数据分析(c#)

C#抓取和分析网页的类（转）