爬虫杂记
关于爬虫的零碎点滴记录
1.爬虫处理cookie和session服务器发送response中cookies内容可能非常多,但是一般不会一次性全部登记到的cookies中,随着用户不断访问,可能会逐渐登记.
所以打印print(requests.utils.dict_from_cookiejar(response.cookies)) 只有一条也不用奇怪.
2.查看网页源代码:view-source:https://tieba.baidu.com/f?kw=%E6%9D%8E%E6%AF%85&ie=utf-8&pn=0 是重新发起了一次请求,跟原网页内容可能不同了。
3.寻找一个最好突破的url入口,如:手机端的3G网络网页。



浙公网安备 33010602011771号