随笔分类 -  爬虫

摘要:1. 介绍 对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助。入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法 2. 安装 利用 pip 安装 3. 基本请求 3.1 get请求 参数是字典,我们也可以传递json类型的参 阅读全文
posted @ 2020-05-13 19:14 zx125 阅读(458) 评论(1) 推荐(0)
摘要:urllib response方法 request方法 动态UA post参数 https忽略CA认证的证书(不是CA认证的而是个人的) 代理 cookie cookiejar URLError 阅读全文
posted @ 2020-05-10 21:48 zx125 阅读(212) 评论(0) 推荐(0)
摘要:import requests from lxml import etree import re import time import json import threading import urllib3 urllib3.disable_warnings() url = "https://www 阅读全文
posted @ 2020-05-08 09:15 zx125 阅读(459) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2020-01-07 21:22 zx125 阅读(0) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2020-01-07 20:58 zx125 阅读(0) 评论(0) 推荐(0)
摘要:拉钩 ajax请求,cookies反爬 阅读全文
posted @ 2020-01-07 17:20 zx125 阅读(181) 评论(0) 推荐(0)
摘要:反爬记录 1.UA伪装 2.封IP 3.font family 4.cookeies 5.验证码 6.referer 7.css:before 8.js混淆 9:加密 10.检查webdriver 11.禁用调试 爬虫小知识 测试接口信息的链接 大型免费代理池 https://github.com/ 阅读全文
posted @ 2020-01-06 21:16 zx125 阅读(145) 评论(0) 推荐(0)
摘要:文档 https://cncert.github.io/requests html doc cn/ / 安装 简单使用 Element 支持js 内部使用的是 pyppeteer 而不是 selenium ,更小众,但是被反爬的概率更小 第一次调用会下载一个Chromium 关于使用render的基 阅读全文
posted @ 2020-01-05 21:44 zx125 阅读(277) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2020-01-04 23:31 zx125 阅读(5) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2020-01-03 22:02 zx125 阅读(2) 评论(0) 推荐(0)
摘要:官方文档 https://pillow.readthedocs.io/en/stable/ 安装 图片基本信息 常用方法 图像转化 图像裁剪 图片旋转 改变图像大小 参考链接 https://gitee.com/komavideo/LearnPillow 阅读全文
posted @ 2020-01-03 21:49 zx125 阅读(395) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2020-01-03 15:36 zx125 阅读(3) 评论(0) 推荐(0)
摘要:爬取豌豆荚排行 使用bs4解析数据,并保存到mysql 阅读全文
posted @ 2020-01-01 20:38 zx125 阅读(205) 评论(0) 推荐(0)
摘要:代理池 实现了简单的代理池免费ip的获取,并使用有效的ip,进行爬取工作 阅读全文
posted @ 2019-12-30 21:27 zx125 阅读(244) 评论(0) 推荐(0)
摘要:思路 测试1 代码 阅读全文
posted @ 2019-12-30 21:25 zx125 阅读(2768) 评论(0) 推荐(0)
摘要:scrapy请求传参 BOSS反爬 思路总结 第一次请求就携带cookie,其实他之前有302重定向的如果网络卡的情况下你就会发现,cookie就是这个请求设置的,但是不知道为啥,最开始的请求隐藏掉了 首先boss加了反爬 是cookies的 爬取的内容为职位和职位描述 阅读全文
posted @ 2019-09-17 20:18 zx125 阅读(311) 评论(0) 推荐(0)
摘要:scrapy 五大核心组件 分页 分页 思路 总的原理和之前是一样的,但是由于框架的原因,要遵循他框架的使用方式,每次更改他的url,并指定回调函数 coding: utf 8 import scrapy class XiaohuanameSpider(scrapy.Spider): name = 阅读全文
posted @ 2019-09-13 11:20 zx125 阅读(213) 评论(0) 推荐(0)
摘要:Scrapy持久化存储 爬虫爬取数据转义问题 使用这种格式,会自动帮我们转义 'insert into wen values(%s,%s)',(item['title'],item['content']) 基于终端的指令: 只可以将parse方法的返回值存储到本地的文本文件中,支持(json,jso 阅读全文
posted @ 2019-09-11 22:58 zx125 阅读(360) 评论(0) 推荐(0)
摘要:scrapy介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方 式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API 所返回的数据(例如 Ama 阅读全文
posted @ 2019-09-10 20:32 zx125 阅读(168) 评论(0) 推荐(0)
摘要:12306模拟登陆 超级鹰 什么是超级鹰? 就是和云打码类似的验证码识别网站,但是他能识别更复杂的图片验证码 模拟登陆12306 主要思路 1.首先登陆到12306界面 2.点击账号密码登录,到账号密码登录模块 3.截取整张界面的图片保存到本地,并获取验证码部分的坐标 4.在界面截图的基础上,根据获 阅读全文
posted @ 2019-09-08 21:39 zx125 阅读(584) 评论(0) 推荐(0)