文章分类 - 爬虫
摘要:- 使用数据库建立关键字段(一个或者多个)建立索引进行去重 - 根据url地址进行去重 - 使用场景: - url地址对应的数据不会变的情况,url地址能够唯一判别一个条数据的情况 - 思路 - url存在redis中 - 拿到url地址,判断url在redis的url的集合中是够存在 - 存在:说明url已经被请求过,不再请求 - 不存在:ur...
阅读全文
摘要:关于爬虫的零碎点滴记录 服务器发送response中cookies内容可能非常多,但是一般不会一次性全部登记到的cookies中,随着用户不断访问,可能会逐渐登记.所以打印print(requests.utils.dict_from_cookiejar(response.cookies)) 只有一条
阅读全文

浙公网安备 33010602011771号