爬虫 - 随笔分类 - 木白的菜园

爬虫IP被禁的简单解决方法

摘要：爬虫以前听上去好厉害好神秘的样子，用好了可以成就像Google、百度这样的索索引擎，用不好可以凭借不恰当的高并发分分钟崩掉一个小型网站。写到这里想到12306每年扛住的并发请求量，觉得好牛逼。爬虫和反爬虫从一直以来都是一个道高一尺魔高一丈的架势。反爬虫技术增加了爬取的难度，各路crawler的爬取过程可以说是一个和各种网站站长斗智斗勇的过程，各种解决方式可谓层出不穷，但是这里说是“简单”解决方... 阅读全文

posted @ 2017-03-01 15:03 木白的菜园阅读(17269) 评论(1) 推荐(2)

几个Python爬虫工具介绍

摘要：

重点介绍了基于Python的Requests HTTP库和BeautifulSoup网页解析库阅读全文

posted @ 2016-12-06 22:41 木白的菜园阅读(7010) 评论(1) 推荐(1)

爬虫基本知识之C/S交互

摘要：概念爬虫就是对网页的获取。一般获取的网页中又有通向其他网页的通路，我们叫做超链接，那么就可以通过这样的通路获取更多其他的网页，就像一只在网路上爬行的蜘蛛，所以俗称爬虫。爬虫的工作原理和浏览器浏览网页的原理类似，是请求/返回模式，就是说客户端向服务器提出访问某个页面的请求（request），服务阅读全文

posted @ 2016-12-06 21:25 木白的菜园阅读(1170) 评论(0) 推荐(0)

木白的菜园

保持傻，保持饿，好好种菜，要静候，再静候

随笔分类 - 爬虫

公告