.NET Life

.NET STUDY AND RESEARCH

   ::  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

文章分类 -  SoSearch引擎专题-蜘蛛

网络爬虫
摘要:阅读提示:本文介绍了爬虫程序实现下载速度慢的可能原因和解决办法。 【引自Felomeng的博客】在《爬虫/蜘蛛程序的制作(C#语言)》一文中,已经介绍了爬虫程序实现的基本方法,可以说,已经实现了爬虫的功能。只是它存在一个效率问题,下载速度可能很慢。这是两方面的原因造成的: 1.分析和下载不能同步进行。在《爬虫/蜘蛛程序的制作(C#语言)》中已经介绍了爬虫程序的两个步骤:分析和下载。在... 阅读全文
posted @ 2007-11-09 10:51 Lang_Hai 阅读(465) 评论(0) 推荐(0)

摘要:阅读提示:本文讲解C#因为内置了HTTP访问和多线程,所以适合于构造蜘蛛程序中要解决的关键问题,供大家参考! 首先准备一个缓冲区临时地保存二进制文件的内容。 byte []buffer = new byte[1024]; 接下来要确定文件保存到本地的路径和名称。如果要把一个myhost.com网站的内容下载到本地的c:\test文件夹,二进制文件的网上路径和名称是http://... 阅读全文
posted @ 2007-11-09 10:50 Lang_Hai 阅读(269) 评论(0) 推荐(0)

摘要:阅读提示:本文讲解C#因为内置了HTTP访问和多线程,所以适合于构造蜘蛛程序中要解决的关键问题,供大家参考! C#特别适合于构造蜘蛛程序,这是因为它已经内置了HTTP访问和多线程的能力,而这两种能力对于蜘蛛程序来说都是非常关键的。下面是构造一个蜘蛛程序要解决的关键问题: (1)HTML分析:需要某种HTML解析器来分析蜘蛛程序遇到的每一个页面。 (2)页面处理:需要处理每一个下... 阅读全文
posted @ 2007-11-09 10:49 Lang_Hai 阅读(338) 评论(0) 推荐(0)