爬虫 - 随笔分类(第2页) - wy0925

爬虫模拟cookie自动登录（人人网自动登录）

摘要：什么是cookie？在网站中，HTTP请求时无状态的，也就是说即使第一次和服务器连接后并且登录成功后，第二次请求服务器依然不能知道当前请求是谁，cookie的出现就是为了解决这个问题，第一次登陆后服务器返回一些数据（cookie）给浏览器，然后浏览器保存在本地，当该用户发送第二次请求的时候，就会自阅读全文

posted @ 2019-06-26 17:36 wy0925 阅读(686) 评论(0) 推荐(0)

ProxyHandler处理器（代理设置）

摘要：很多网站会检测某一段时间某个IP的访问次数（通过流量统计，系统日志等）如果访问次数多的不像正常人，他会禁止这个IP的访问，所以我们可以设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁止，依然可以换个IP继续爬取。urllib中通过ProxyHandler来设置使用代理服务器，下面代码说明如何阅读全文

posted @ 2019-06-26 10:12 wy0925 阅读(873) 评论(0) 推荐(0)

【实战】用request爬取拉勾网职位信息

摘要：避免请求太频繁方法阅读全文

posted @ 2019-06-25 16:14 wy0925 阅读(281) 评论(0) 推荐(0)

urllib库

摘要：response 常ོ用ོ的ོ属ོ性ོ 爬ོ取ོ到ོ的ོ网ོ页ོ直ོ接ོ写ོ入ོ文ོ件ོ 模ོ拟ོ浏ོ览ོ器ོ 参ོ数ོ打ོ包ོ# 打包 import urllibparam = {'name': '王月'}print(urllib.parse.urlencode(param))结果：name=%E 阅读全文

posted @ 2019-06-21 16:45 wy0925 阅读(198) 评论(0) 推荐(0)

爬虫介绍

摘要：一，什么是爬虫网络怕中又称为网络蜘蛛，网络蚂蚁，网络机器人等，可以自动化浏览网络中的信息，当然浏览信息的时候需要按照我们制定的规则进行，这些规则称之为网络爬虫算法。使用python可以很方便的写出爬虫程序，进行互联网信息的自动化检索二，为什么学习爬虫私人定制一个搜索引擎，并且可以对搜索引擎的采阅读全文

posted @ 2019-06-21 16:11 wy0925 阅读(330) 评论(0) 推荐(0)

随笔分类 - 爬虫