随笔分类 -  爬虫

上一页 1 2
爬虫模拟cookie自动登录(人人网自动登录)
摘要:什么是cookie? 在网站中,HTTP请求时无状态的,也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不能知道当前请求是谁,cookie的出现就是为了解决这个问题,第一次登陆后服务器返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求的时候,就会自 阅读全文
posted @ 2019-06-26 17:36 wy0925 阅读(686) 评论(0) 推荐(0)
ProxyHandler处理器(代理设置)
摘要:很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等)如果访问次数多的不像正常人,他会禁止这个IP的访问,所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。urllib中通过ProxyHandler来设置使用代理服务器,下面代码说明如何 阅读全文
posted @ 2019-06-26 10:12 wy0925 阅读(873) 评论(0) 推荐(0)
【实战】用request爬取拉勾网职位信息
摘要:避免请求太频繁 方法 阅读全文
posted @ 2019-06-25 16:14 wy0925 阅读(281) 评论(0) 推荐(0)
urllib库
摘要:response 常ོ用ོ的ོ属ོ性ོ 爬ོ取ོ到ོ的ོ网ོ页ོ直ོ接ོ写ོ入ོ文ོ件ོ 模ོ拟ོ浏ོ览ོ器ོ 参ོ数ོ打ོ包ོ# 打包 import urllibparam = {'name': '王月'}print(urllib.parse.urlencode(param))结果:name=%E 阅读全文
posted @ 2019-06-21 16:45 wy0925 阅读(198) 评论(0) 推荐(0)
爬虫介绍
摘要:一,什么是爬虫 网络怕中又称为网络蜘蛛,网络蚂蚁,网络机器人等,可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则进行,这些规则称之为网络爬虫算法。使用python可以很方便的写出爬虫程序,进行互联网信息的自动化检索 二,为什么学习爬虫 私人定制一个搜索引擎,并且可以对搜索引擎的采 阅读全文
posted @ 2019-06-21 16:11 wy0925 阅读(330) 评论(0) 推荐(0)

上一页 1 2