随笔分类 -  网络爬虫

(转)asp.net c#如何采集需要登录的页面?
摘要:原文地址:http://www.cnblogs.com/subendong/archive/2013/01/31/2886568.html首先说明:代码片段是从网络获取,然后自己修改。我想好的东西应该拿来分享。先说下原理:当我们采集页面的时候,如果被采集的网站需要登录才能采集。不管是基于Cookie还是基于Session,我们都会首先发送一个Http请求头,这个Http请求头里面就包含了网站需要的Cookie信息。当网站接收到发送过来的Http请求头时,会从Http请求头获取相关的Cookie或者Session信息,然后由程序来处理,决定你是否有权限访问当前页面。好了,原理搞清楚了,就好办了。 阅读全文

posted @ 2013-02-07 18:22 黑子范 阅读(275) 评论(0) 推荐(0)

(转)玩玩小爬虫——抓取时的几个小细节
摘要:原文地址:http://www.cnblogs.com/huangxincheng/archive/2012/11/08/2759752.html 这一篇我们聊聊在页面抓取时应该注意到的几个问题。一:网页更新 我们知道,一般网页中的信息是不断翻新的,这也要求我们定期的去抓这些新信息,但是这个“定期”该怎么理解,也就是多长时间需要抓一次该页面,其实这个定期也就是页面缓存时间,在页面的缓存时间内我们再次抓取该网页是没有必要的,反而给人家服务器造成压力。就比如说我要抓取博客园首页,首先清空页面缓存,从Last-Modified到Expires,我们可以看到,博客园的缓存时间是2分钟,而且... 阅读全文

posted @ 2012-11-09 11:41 黑子范 阅读(237) 评论(0) 推荐(0)

(转)玩玩小爬虫——入门
摘要:原文地址:http://www.cnblogs.com/huangxincheng/archive/2012/11/02/2751977.html 前段时间做一个产品,盈利方式也就是卖数据给用户,用wpf包装一下,当然数据提供方是由公司定向爬虫采集的,虽然在实际工作中没有接触这一块,不过私下可以玩一玩,研究研究。 既然要抓取网页的内容,肯定我们会有一个startUrl,通过这个startUrl就可以用广度优先的方式遍历整个站点,就如我们学习数据结构中图的遍历一样。既然有“请求网页”和“解析网页”两部分,在代码实现上,我们得需要有两个集合,分别是Todo和Visited集合,为了简单起见,... 阅读全文

posted @ 2012-11-03 17:26 黑子范 阅读(230) 评论(0) 推荐(0)

(转)跟我一起制作数据采集-获取淘宝网店宝贝数据信息(一)
摘要:原文地址:http://www.cnblogs.com/leizhang/archive/2012/04/13/2446220.html创建项目并绘制界面打开Visual Studio并创建一个基于.net 4.5的WPF项目:GetTaoBaoItems之所以采用4.5是因为后面我们将要用到里面免费的新的异步编程特性.绘制如下主界面: 下载网页我们知道要进行网络数据采集必不可少就要下载网页内容,因此我们首先需要构建一个下载网页内容的函数:注意using System.Net 我们下载哪个网页了?我们可以通过类似网址查看一个店铺的所有宝贝: [淘宝店铺地址]/search.htm,如下图所示. 阅读全文

posted @ 2012-04-14 17:28 黑子范 阅读(602) 评论(0) 推荐(0)

(转)关键技术之单机爬虫的实现(1)---我的名字叫小蛛蛛,虽然我还小,但是我也是只可爱的蜘蛛。
摘要:大家好,我的中文名字叫小蛛蛛英文名字叫jspider。现在刚刚从“妈妈”肚子出来。动作比较缓慢,不过对外界东西已经有反应了。别说我坏话哈,我听的懂的。刚出来还不知道我到底来到世界是干嘛的,后来查了下资料。才知道: 网络爬虫,又称网络蜘蛛,是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的爬虫程序像蜘蛛(Spider)一样在网络间爬来爬去,... 阅读全文

posted @ 2010-04-13 13:08 黑子范 阅读(601) 评论(0) 推荐(0)

导航