摘要: 抓取和分析网页的类。 主要功能有: 1、提取网页的纯文本,去所有html标签和javascript代码 2、提取网页的链接,包括href和frame及iframe 3、提取网页的title等(其它的标签可依此类推,正则是一样的) 4、可以实现简单的表单提交及cookie保存 /* * Author:Sunjoy at CCNU * 如果您改进了这个类请发一份代码给我(ccnusjy 在gmai... 阅读全文
posted @ 2009-04-25 17:36 快乐就好 阅读(1019) 评论(0) 推荐(0)
摘要: 首先将网页内容整个抓取下来,这个我就不说了,不是本次话题的重点。假设抓取的数据放在RecvBuffer这个byte[]中(数据从网络上传输过来时不是字符串的形式而是byte),那么我们的第一步就是将RecvBuffer转化为String,以便于对其操作,实例如下:// 将接收到的数据增加到响应字符串中 strResponse += Encoding.ASCII.GetString(RecvBuff... 阅读全文
posted @ 2009-04-25 17:35 快乐就好 阅读(1609) 评论(0) 推荐(1)