摘要: 前面说了使用浏览器登录较为简单,不需要过多分析,而使用请求登录恰恰就是以分析为主. 开发一个请求登录程序的流程: 分析请求->模拟请求->测试登录->调整参数->测试登录->登录成功 一、分析网页 从网页着手,打开博客园的登录页面,F12调出网页调试,选择network的tab,然后登录,登录成功后 阅读全文
posted @ 2017-08-21 17:03 Masako 阅读(4427) 评论(0) 推荐(0) 编辑
摘要: 浏览器模拟登录的主要技术点在于: 1.如何使用python的浏览器操作工具selenium 2.简单看一下网页,找到帐号密码对应的框框,要知道python开启的浏览器如何定位到这些 一、使用selenium打开网页 以上几句执行便可以打开博客园的登录界面,开启浏览器可能较慢,耐心等一下. 以前的se 阅读全文
posted @ 2017-08-21 12:27 Masako 阅读(18780) 评论(3) 推荐(0) 编辑
摘要: 爬虫主要目的是获取数据,常见的数据可以直接访问网页或者抓包获取,然后再解析即可. 一些较为隐私的数据则不会让游客身份的访问者随便看到,这个时候便需要登录获取. 一般获取数据需要的是登录后的cookie作为身份验证,如果一个可用cookie就能满足你的爬虫需要,可以不用模拟登录, 直接在网页上登录,拷 阅读全文
posted @ 2017-08-21 12:25 Masako 阅读(1510) 评论(0) 推荐(0) 编辑