随笔分类 - 爬虫
一些关于网络爬虫的知识
摘要:爬虫以前听上去好厉害好神秘的样子,用好了可以成就像Google、百度这样的索索引擎,用不好可以凭借不恰当的高并发分分钟崩掉一个小型网站。写到这里想到12306每年扛住的并发请求量,觉得好牛逼。 爬虫和反爬虫从一直以来都是一个道高一尺魔高一丈的架势。反爬虫技术增加了爬取的难度,各路crawler的爬取过程可以说是一个和各种网站站长斗智斗勇的过程,各种解决方式可谓层出不穷,但是这里说是“简单”解决方...
阅读全文
摘要:
重点介绍了基于Python的Requests HTTP库和BeautifulSoup网页解析库
阅读全文
重点介绍了基于Python的Requests HTTP库和BeautifulSoup网页解析库
阅读全文
摘要:概念 爬虫就是对网页的获取。 一般获取的网页中又有通向其他网页的通路,我们叫做超链接,那么就可以通过这样的通路获取更多其他的网页,就像一只在网路上爬行的蜘蛛,所以俗称爬虫。 爬虫的工作原理和浏览器浏览网页的原理类似,是请求/返回模式,就是说客户端向服务器提出访问某个页面的请求(request),服务
阅读全文

浙公网安备 33010602011771号