随笔分类 -  爬虫

反爬机制和破解方法汇总
摘要:一什么是爬虫和反爬虫? 爬虫:使用任何技术手段,批量获取网站信息的一种方式。 反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。 二 Headers and referer 反爬机制 *headers进行反爬是最常见的反爬虫策略。 *还有一些网站会对 Referer (上级链接)进行 阅读全文

posted @ 2021-03-12 23:05 Plyc 阅读(640) 评论(0) 推荐(0)

pandas
摘要:基本使用 # 一般以pd作为pandas的缩写 import pandas as pd # 读取文件 df = pd.read_csv('file.csv') # 返回数据的大小 df.shape # 显示数据的一些对象信息和内存使用 df.info() # 显示数据的统计量信息 df.descri 阅读全文

posted @ 2021-03-11 17:38 Plyc 阅读(77) 评论(0) 推荐(0)

谷歌历史浏览器下载
摘要:https://www.chromedownloads.net/chrome64win/ 阅读全文

posted @ 2021-03-10 22:00 Plyc 阅读(60) 评论(0) 推荐(0)

scrapy 创建爬虫项目失败
摘要:1. 遇到ImortError:DLL load failed:找不到模块问题,折腾了一天查了网上各种资料,下了各种各样的包,最后发现还是环境没有配到位,我只配了C:\ProgramData\Anaconda3\Scripts; 解决办法:这三个路径都要配到PATH中。 2. 依次在cmd中输入以下 阅读全文

posted @ 2021-03-09 22:54 Plyc 阅读(338) 评论(0) 推荐(0)

增量式爬虫
摘要:一.增量式爬虫 概念:通过爬虫程序监测某网站数据更新的情况,以便可以爬取到该网站更新出的新数据。 如何进行增量式的爬取工作: 在发送请求之前判断这个URL是不是之前爬取过 在解析内容后判断这部分内容是不是之前爬取过 写入存储介质时判断内容是不是已经在介质中存在 分析: 不难发现,其实增量爬取的核心是 阅读全文

posted @ 2021-03-09 21:17 Plyc 阅读(120) 评论(0) 推荐(0)

Scrapy框架(CrawlSpider)
摘要:一.简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类,其设计原则只是为了爬取start_url列表中网页,而从爬取到 阅读全文

posted @ 2021-03-09 21:13 Plyc 阅读(124) 评论(0) 推荐(0)

scrapy中selenium的应用
摘要:重写爬虫文件的构造方法,在该方法中使用selenium实例化一个浏览器对象(因为浏览器对象只需要被实例化一次) 重写爬虫文件的closed(self,spider)方法,在其内部关闭浏览器对象。该方法是在爬虫结束时被调用 重写下载中间件的process_response方法,让该方法对响应对象进行拦 阅读全文

posted @ 2021-03-09 16:12 Plyc 阅读(112) 评论(0) 推荐(0)

UA池和代理池
摘要:二.UA池:User-Agent池 - 作用:尽可能多的将scrapy工程中的请求伪装成不同类型的浏览器身份。 - 操作流程: 1.在下载中间件中拦截请求 2.将拦截到的请求的请求头信息中的UA进行篡改伪装 3.在配置文件中开启下载中间件 代码展示: #导包 from scrapy.contrib. 阅读全文

posted @ 2021-03-09 15:57 Plyc 阅读(308) 评论(0) 推荐(0)

scrapy框架的日志等级和请求传参和配置文件
摘要:一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。 - 日志信息的种类: ERROR : 一般错误 WARNING : 警告 INFO : 一般的信息 DEBUG : 调试信息 - 设置日志信息指定输 阅读全文

posted @ 2021-03-09 15:37 Plyc 阅读(145) 评论(0) 推荐(0)

scrapy框架之递归解析和post请求
摘要:今日详情 1.递归爬取解析多页页面数据 - 需求:将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储 - 需求分析:每一个页面对应一个url,则scrapy工程需要对每一个页码对应的url依次发起请求,然后通过对应的解析方法进行作者和段子内容的解析。 实现方案: 1.将每一个页码对应的url 阅读全文

posted @ 2021-03-09 15:27 Plyc 阅读(45) 评论(0) 推荐(0)

scrapy框架持久化存储 以及响应参数
摘要:来看一下response对象中的一些基本方法/属性: 属性描述 url 获取本次request请求的url地址 status 获取本次request请求的状态码 body 获取HTML响应正文,返回的是bytes格式内容,因此如果请求的是图片,可直接拿到它进行写入 text 获取HTML响应正文,返 阅读全文

posted @ 2021-03-09 15:01 Plyc 阅读(102) 评论(0) 推荐(0)

scrapy框架
摘要:安装 Linux: pip3 install scrapy Windows: a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载并安装twisted的wheel文件,CP对应 阅读全文

posted @ 2021-03-09 14:46 Plyc 阅读(73) 评论(0) 推荐(0)

12306 模拟登陆
摘要:超级鹰: #!/usr/bin/env python # coding:utf-8 import requests from hashlib import md5 class Chaojiying_Client(object): def __init__(self, username, passwo 阅读全文

posted @ 2021-03-08 23:06 Plyc 阅读(132) 评论(0) 推荐(0)

selenium
摘要:https://blog.csdn.net/weixin_44110998/article/details/103185785 # selenium 学习 window.navigator.webdriver # 规避检测 窗口切换 driver.get("https://seleniumhq.gi 阅读全文

posted @ 2021-03-08 22:16 Plyc 阅读(80) 评论(0) 推荐(0)

验证码处理
摘要:云打码平台处理验证码的实现流程: 云打码平台处理验证码的实现流程: - 1.对携带验证码的页面数据进行抓取 - 2.可以将页面数据中验证码进行解析,验证码图片下载到本地 - 3.可以将验证码图片提交给三方平台进行识别,返回验证码图片上的数据值 - 云打码平台: - 1.在官网中进行注册(普通用户和开 阅读全文

posted @ 2021-03-08 16:52 Plyc 阅读(83) 评论(0) 推荐(0)

爬虫
摘要:requests模块是Python中发送网络请求的一款非常简洁、高效的模块。 pip install requests import requests requests.get("https://www.python.org/") requests.post("https://www.python. 阅读全文

posted @ 2021-03-08 13:17 Plyc 阅读(106) 评论(0) 推荐(0)

爬虫 注意事项
摘要:1.tbody 不可以出现在xpath表达式中 2.爬取到的文字为乱码时 name = name.encode(‘iso-8859-1’).decode(//‘gbk’) 3.# 增强xpath表达式的通用性 ****采用管道符 # url="https://www.aqistudy.cn/hist 阅读全文

posted @ 2021-03-06 15:22 Plyc 阅读(229) 评论(0) 推荐(0)

导航