爬虫 - 随笔分类 - Plyc

反爬机制和破解方法汇总

摘要：一什么是爬虫和反爬虫？爬虫：使用任何技术手段，批量获取网站信息的一种方式。反爬虫：使用任何技术手段，阻止别人批量获取自己网站信息的一种方式。二 Headers and referer 反爬机制 *headers进行反爬是最常见的反爬虫策略。 *还有一些网站会对 Referer （上级链接）进行阅读全文

posted @ 2021-03-12 23:05 Plyc 阅读(640) 评论(0) 推荐(0)

pandas

摘要：基本使用 # 一般以pd作为pandas的缩写 import pandas as pd # 读取文件 df = pd.read_csv('file.csv') # 返回数据的大小 df.shape # 显示数据的一些对象信息和内存使用 df.info() # 显示数据的统计量信息 df.descri 阅读全文

posted @ 2021-03-11 17:38 Plyc 阅读(77) 评论(0) 推荐(0)

谷歌历史浏览器下载

摘要：https://www.chromedownloads.net/chrome64win/ 阅读全文

posted @ 2021-03-10 22:00 Plyc 阅读(60) 评论(0) 推荐(0)

scrapy 创建爬虫项目失败

摘要：1. 遇到ImortError:DLL load failed:找不到模块问题，折腾了一天查了网上各种资料，下了各种各样的包，最后发现还是环境没有配到位，我只配了C:\ProgramData\Anaconda3\Scripts; 解决办法：这三个路径都要配到PATH中。 2. 依次在cmd中输入以下阅读全文

posted @ 2021-03-09 22:54 Plyc 阅读(338) 评论(0) 推荐(0)

增量式爬虫

摘要：一.增量式爬虫概念：通过爬虫程序监测某网站数据更新的情况，以便可以爬取到该网站更新出的新数据。如何进行增量式的爬取工作：在发送请求之前判断这个URL是不是之前爬取过在解析内容后判断这部分内容是不是之前爬取过写入存储介质时判断内容是不是已经在介质中存在分析：不难发现，其实增量爬取的核心是阅读全文

posted @ 2021-03-09 21:17 Plyc 阅读(120) 评论(0) 推荐(0)

Scrapy框架（CrawlSpider）

摘要：一.简介 CrawlSpider其实是Spider的一个子类，除了继承到Spider的特性和功能外，还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类，其设计原则只是为了爬取start_url列表中网页，而从爬取到阅读全文

posted @ 2021-03-09 21:13 Plyc 阅读(124) 评论(0) 推荐(0)

scrapy中selenium的应用

摘要：重写爬虫文件的构造方法，在该方法中使用selenium实例化一个浏览器对象（因为浏览器对象只需要被实例化一次）重写爬虫文件的closed(self,spider)方法，在其内部关闭浏览器对象。该方法是在爬虫结束时被调用重写下载中间件的process_response方法，让该方法对响应对象进行拦阅读全文

posted @ 2021-03-09 16:12 Plyc 阅读(112) 评论(0) 推荐(0)

UA池和代理池

摘要：二.UA池：User-Agent池 - 作用：尽可能多的将scrapy工程中的请求伪装成不同类型的浏览器身份。 - 操作流程： 1.在下载中间件中拦截请求 2.将拦截到的请求的请求头信息中的UA进行篡改伪装 3.在配置文件中开启下载中间件代码展示： #导包 from scrapy.contrib. 阅读全文

posted @ 2021-03-09 15:57 Plyc 阅读(308) 评论(0) 推荐(0)

scrapy框架的日志等级和请求传参和配置文件

摘要：一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时，在终端里打印输出的就是scrapy的日志信息。 - 日志信息的种类： ERROR ：一般错误 WARNING : 警告 INFO : 一般的信息 DEBUG ：调试信息 - 设置日志信息指定输阅读全文

posted @ 2021-03-09 15:37 Plyc 阅读(145) 评论(0) 推荐(0)

scrapy框架之递归解析和post请求

摘要：今日详情 1.递归爬取解析多页页面数据 - 需求：将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储 - 需求分析：每一个页面对应一个url，则scrapy工程需要对每一个页码对应的url依次发起请求，然后通过对应的解析方法进行作者和段子内容的解析。实现方案： 1.将每一个页码对应的url 阅读全文

posted @ 2021-03-09 15:27 Plyc 阅读(45) 评论(0) 推荐(0)

scrapy框架持久化存储以及响应参数

摘要：来看一下response对象中的一些基本方法/属性：属性描述 url 获取本次request请求的url地址 status 获取本次request请求的状态码 body 获取HTML响应正文，返回的是bytes格式内容，因此如果请求的是图片，可直接拿到它进行写入 text 获取HTML响应正文，返阅读全文

posted @ 2021-03-09 15:01 Plyc 阅读(102) 评论(0) 推荐(0)

scrapy框架

摘要：安装 Linux： pip3 install scrapy Windows： a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载并安装twisted的wheel文件，CP对应阅读全文

posted @ 2021-03-09 14:46 Plyc 阅读(73) 评论(0) 推荐(0)

12306 模拟登陆

摘要：超级鹰: #!/usr/bin/env python # coding:utf-8 import requests from hashlib import md5 class Chaojiying_Client(object): def __init__(self, username, passwo 阅读全文

posted @ 2021-03-08 23:06 Plyc 阅读(132) 评论(0) 推荐(0)

selenium

摘要：https://blog.csdn.net/weixin_44110998/article/details/103185785 # selenium 学习 window.navigator.webdriver # 规避检测窗口切换 driver.get("https://seleniumhq.gi 阅读全文

posted @ 2021-03-08 22:16 Plyc 阅读(80) 评论(0) 推荐(0)

验证码处理

摘要：云打码平台处理验证码的实现流程：云打码平台处理验证码的实现流程： - 1.对携带验证码的页面数据进行抓取 - 2.可以将页面数据中验证码进行解析，验证码图片下载到本地 - 3.可以将验证码图片提交给三方平台进行识别，返回验证码图片上的数据值 - 云打码平台： - 1.在官网中进行注册（普通用户和开阅读全文

posted @ 2021-03-08 16:52 Plyc 阅读(83) 评论(0) 推荐(0)

爬虫

摘要：requests模块是Python中发送网络请求的一款非常简洁、高效的模块。 pip install requests import requests requests.get("https://www.python.org/") requests.post("https://www.python. 阅读全文

posted @ 2021-03-08 13:17 Plyc 阅读(106) 评论(0) 推荐(0)

爬虫注意事项

摘要：1.tbody 不可以出现在xpath表达式中 2.爬取到的文字为乱码时 name = name.encode（‘iso-8859-1’）.decode（//‘gbk’） 3.# 增强xpath表达式的通用性 ****采用管道符 # url="https://www.aqistudy.cn/hist 阅读全文

posted @ 2021-03-06 15:22 Plyc 阅读(229) 评论(0) 推荐(0)

Plyc

随笔分类 - 爬虫