爬虫杂记

 关于爬虫的零碎点滴记录

1.爬虫处理cookie和session

服务器发送response中cookies内容可能非常多,但是一般不会一次性全部登记到的cookies中,随着用户不断访问,可能会逐渐登记.
所以打印print(requests.utils.dict_from_cookiejar(response.cookies)) 只有一条也不用奇怪.

 

2.查看网页源代码:view-source:https://tieba.baidu.com/f?kw=%E6%9D%8E%E6%AF%85&ie=utf-8&pn=0 是重新发起了一次请求,跟原网页内容可能不同了。
3.寻找一个最好突破的url入口,如:手机端的3G网络网页。

 

 

posted @ 2019-04-04 22:56  甜麦地  阅读(75)  评论(0)    收藏  举报