摘要: 在爬虫开发时,我们时常会遇到各种BUG各种问题,下面是我初步汇总的一些报错和解决方案。 在以后的学习中,如果遇到其他问题,我也会在这里进行更新。 各位如有什么补充,欢迎评论区留言~~~ 问题: IP被封,或者因访问频率太高被拦截??? 解决方案之一: 使用代理IP即可。 问题: 正确使用XPath之 阅读全文
posted @ 2019-12-25 10:43 WoLykos 阅读(2403) 评论(0) 推荐(0) 编辑
摘要: 这一次呢,让我们来试一下“CSDN热门文章的抓取”。 话不多说,让我们直接进入 "CSND官网" 。 (其实是因为我被阿里的反爬磨到没脾气,不想说话……) 一、URL分析 输入“Python”并点击搜索: 便得到了所有关于“Python”的热门博客,包括 [ 标题,网址、阅读数 ] 等等,我们的任务 阅读全文
posted @ 2019-12-25 10:36 WoLykos 阅读(1967) 评论(0) 推荐(0) 编辑
摘要: 在 "《Python爬虫实战—— Request对象之header伪装策略》" 中,我们就已经讲到:==“在header当中,我们经常会添加两个参数——cookie 和 User Agent,来模拟浏览器登录,以此提高绕过后台服务器反爬策略的可能性。”== User Agent已经讲过,这篇我们则主 阅读全文
posted @ 2019-12-25 10:27 WoLykos 阅读(669) 评论(1) 推荐(0) 编辑
摘要: 一般情况下,我并不建议使用自己的IP来爬取网站,而是会使用代理IP。 原因很简单:爬虫一般都有很高的访问频率,当服务器监测到某个IP以过高的访问频率在进行访问,它便会认为这个IP是一只“爬虫”,进而封锁了我们的IP。 那我们爬虫对IP代理的要求是什么呢? 1、代理IP数量较多,可以减低被封锁的概率; 阅读全文
posted @ 2019-12-25 10:21 WoLykos 阅读(903) 评论(0) 推荐(0) 编辑
摘要: 在header当中,我们经常会添加两个参数——cookie 和 User Agent,来模拟浏览器登录,以此提高绕过后台服务器反爬策略的可能性。 User Agent获取 User Agent可通过随机发送请求并进入开发者工具来提取。 在这里,我也已经采集了一堆User Agent,并写成一个能随机 阅读全文
posted @ 2019-12-25 10:20 WoLykos 阅读(1872) 评论(0) 推荐(0) 编辑
摘要: 作为进阶的最后一篇,我们就讲个有意思点的案例吧——百度翻译。 一、分析URL接口 正如 "上一篇:《Python爬虫进阶——Get请求》" 讲到的:当我们进行爬虫开发的时候,首先要做的,就是分析URL接口。 1. 打开 "百度翻译" ; 2. F12; 3. 开发者工具中点击“暂停”和“清空”; 4 阅读全文
posted @ 2019-12-25 10:17 WoLykos 阅读(842) 评论(0) 推荐(0) 编辑
摘要: 在上一篇中,我们是通过 直接访问的网页地址,但在实际应用中,我们更多地使用 对象,因为其可以封装headers和data。 一、Request类的参数 注意: :访问的URL地址; :像URL地址发送的数据,无则为GET,有则为POST; :请求头,类型为字典; :日常不用,忽略; :日常不用,忽略 阅读全文
posted @ 2019-12-25 10:15 WoLykos 阅读(1562) 评论(0) 推荐(0) 编辑
摘要: 很多时候呢,我们都是读取本地HTML文件来进行爬虫练手,但每次都要手打不同的HTML明显耗时耗力; 还有些小伙伴不喜欢F12,偏偏喜欢在Pycharm中查看HTML的源代码; …… 难道每次都只能“复制——新建——粘贴——保存”一条龙服务吗? 不不不,我们还有Python的第三方库—— 。 urll 阅读全文
posted @ 2019-12-25 10:13 WoLykos 阅读(440) 评论(0) 推荐(0) 编辑
摘要: 如果一个网站采用前端渲染,那么这个网站的前端会访问后端的一些接口,然后拿到后端向前端返回的数据(一般都是Json类型,Json对象的本质其实是一个bytes字节流,但我们可以通过转码的方式,把它转成str),再把Json数据交给JS,JS对其进行解析,最终渲染页面。 这就是前端渲染的一个流程。 很多 阅读全文
posted @ 2019-12-25 10:10 WoLykos 阅读(598) 评论(0) 推荐(0) 编辑