2019 年 12月 25 日随笔档案 - WoLykos

2019年12月25日

摘要：在爬虫开发时，我们时常会遇到各种BUG各种问题，下面是我初步汇总的一些报错和解决方案。在以后的学习中，如果遇到其他问题，我也会在这里进行更新。各位如有什么补充，欢迎评论区留言~~~ 问题： IP被封，或者因访问频率太高被拦截？？？解决方案之一：使用代理IP即可。问题：正确使用XPath之阅读全文

posted @ 2019-12-25 10:43 WoLykos 阅读(2403) 评论(0) 推荐(0) 编辑

Python爬虫实战——反爬机制的解决策略【阿里】

摘要：这一次呢，让我们来试一下“CSDN热门文章的抓取”。话不多说，让我们直接进入 "CSND官网" 。（其实是因为我被阿里的反爬磨到没脾气，不想说话……）一、URL分析输入“Python”并点击搜索：便得到了所有关于“Python”的热门博客，包括 [ 标题，网址、阅读数 ] 等等，我们的任务阅读全文

posted @ 2019-12-25 10:36 WoLykos 阅读(1967) 评论(0) 推荐(0) 编辑

Python爬虫实战——反爬策略之模拟登录【CSDN】

摘要：在 "《Python爬虫实战—— Request对象之header伪装策略》" 中，我们就已经讲到：==“在header当中，我们经常会添加两个参数——cookie 和 User Agent，来模拟浏览器登录，以此提高绕过后台服务器反爬策略的可能性。”== User Agent已经讲过，这篇我们则主阅读全文

posted @ 2019-12-25 10:27 WoLykos 阅读(669) 评论(1) 推荐(0) 编辑

Python爬虫实战——反爬策略之代理IP【无忧代理】

摘要：一般情况下，我并不建议使用自己的IP来爬取网站，而是会使用代理IP。原因很简单：爬虫一般都有很高的访问频率，当服务器监测到某个IP以过高的访问频率在进行访问，它便会认为这个IP是一只“爬虫”，进而封锁了我们的IP。那我们爬虫对IP代理的要求是什么呢？ 1、代理IP数量较多，可以减低被封锁的概率；阅读全文

posted @ 2019-12-25 10:21 WoLykos 阅读(903) 评论(0) 推荐(0) 编辑

Python爬虫实战—— Request对象之header伪装策略

摘要：在header当中，我们经常会添加两个参数——cookie 和 User Agent，来模拟浏览器登录，以此提高绕过后台服务器反爬策略的可能性。 User Agent获取 User Agent可通过随机发送请求并进入开发者工具来提取。在这里，我也已经采集了一堆User Agent，并写成一个能随机阅读全文

posted @ 2019-12-25 10:20 WoLykos 阅读(1872) 评论(0) 推荐(0) 编辑

Python爬虫进阶——Request对象之post请求案例分析【百度翻译】

摘要：作为进阶的最后一篇，我们就讲个有意思点的案例吧——百度翻译。一、分析URL接口正如 "上一篇：《Python爬虫进阶——Get请求》" 讲到的：当我们进行爬虫开发的时候，首先要做的，就是分析URL接口。 1. 打开 "百度翻译" ; 2. F12; 3. 开发者工具中点击“暂停”和“清空”； 4 阅读全文

posted @ 2019-12-25 10:17 WoLykos 阅读(842) 评论(0) 推荐(0) 编辑

Python爬虫进阶——Request对象之Get请求与URL编码【英雄联盟吧】

摘要：在上一篇中，我们是通过直接访问的网页地址，但在实际应用中，我们更多地使用对象，因为其可以封装headers和data。一、Request类的参数注意：：访问的URL地址；：像URL地址发送的数据，无则为GET，有则为POST；：请求头，类型为字典；：日常不用，忽略；：日常不用，忽略阅读全文

posted @ 2019-12-25 10:15 WoLykos 阅读(1562) 评论(0) 推荐(0) 编辑

Python爬虫进阶——urllib模块使用案例【淘宝】

摘要：很多时候呢，我们都是读取本地HTML文件来进行爬虫练手，但每次都要手打不同的HTML明显耗时耗力；还有些小伙伴不喜欢F12，偏偏喜欢在Pycharm中查看HTML的源代码； …… 难道每次都只能“复制——新建——粘贴——保存”一条龙服务吗？不不不，我们还有Python的第三方库—— 。 urll 阅读全文

posted @ 2019-12-25 10:13 WoLykos 阅读(440) 评论(0) 推荐(0) 编辑

Python爬虫进阶——JsonPath使用案例

摘要：如果一个网站采用前端渲染，那么这个网站的前端会访问后端的一些接口，然后拿到后端向前端返回的数据（一般都是Json类型，Json对象的本质其实是一个bytes字节流，但我们可以通过转码的方式，把它转成str），再把Json数据交给JS，JS对其进行解析，最终渲染页面。这就是前端渲染的一个流程。很多阅读全文

posted @ 2019-12-25 10:10 WoLykos 阅读(598) 评论(0) 推荐(0) 编辑