随笔分类 -  爬虫

一些关于网络爬虫的知识
摘要:爬虫以前听上去好厉害好神秘的样子,用好了可以成就像Google、百度这样的索索引擎,用不好可以凭借不恰当的高并发分分钟崩掉一个小型网站。写到这里想到12306每年扛住的并发请求量,觉得好牛逼。 爬虫和反爬虫从一直以来都是一个道高一尺魔高一丈的架势。反爬虫技术增加了爬取的难度,各路crawler的爬取过程可以说是一个和各种网站站长斗智斗勇的过程,各种解决方式可谓层出不穷,但是这里说是“简单”解决方... 阅读全文
posted @ 2017-03-01 15:03 木白的菜园 阅读(17269) 评论(1) 推荐(2)
摘要:重点介绍了基于Python的Requests HTTP库和BeautifulSoup网页解析库 阅读全文
posted @ 2016-12-06 22:41 木白的菜园 阅读(7010) 评论(1) 推荐(1)
摘要:概念 爬虫就是对网页的获取。 一般获取的网页中又有通向其他网页的通路,我们叫做超链接,那么就可以通过这样的通路获取更多其他的网页,就像一只在网路上爬行的蜘蛛,所以俗称爬虫。 爬虫的工作原理和浏览器浏览网页的原理类似,是请求/返回模式,就是说客户端向服务器提出访问某个页面的请求(request),服务 阅读全文
posted @ 2016-12-06 21:25 木白的菜园 阅读(1170) 评论(0) 推荐(0)