随笔分类 - 爬虫
摘要:selenium无界面执行和反爬 无界面执行 规避服务端发现selenium请求的风险
阅读全文
摘要:selenium处理iframe和动作链 iframe iframe就是一个界面里嵌套了其他界面,这个时候selenium是不能从主界面找到子界面的属性,需要先找到子界面,再去找子界面的属性 动作链(拖动) 1.from selenium.webdriver import ActionChains
阅读全文
摘要:爬虫 selenium 特点 基于浏览器自动化的模块 可以模拟手动操作 1.便捷的获取网站中动态加载的数据 2.便捷的实现模拟登陆 3.可以获取js动态加载的数据 驱动下载和版本关系 http://chromedriver.storage.googleapis.com/index.html http
阅读全文
摘要:requests库 爬虫的本质就是模仿浏览器请求数据,所以requests帮我做的也就是这个事情 本质就是封装了urllib3 Get Post get post主要的区别就是携带参数的方式不同 get post 响应Response 梨视频首页视频 2 参考链接 https://www.cnblo
阅读全文
摘要:爬虫代理 相关网站 快代理 西祠代理 www.goubanjia.com 请求协议 http https注意请求的url是使用哪一种请求协议的 代理ip的匿名度 透明:服务器知道该次请求使用了代理,也知道请求对应的真实ip 匿名:知道使用了代理,不知道真实的ip 高匿:不知道是代理,和真实的ip
阅读全文
摘要:验证码识别 识别功能 识别功能是调用,网上的接口的,而且是付费的,但是平均几分钱一条 平台:云打码 注册一个普通用户,充值1块钱就行 然后下载python的demo 关于软件ID,密钥可以填写以上信息 识别案例 关于识别的功能,我把它封装到 功能里面了
阅读全文
摘要:简历模板批量下载 思路 1.首先研究分页,发现除了第一页请求特例,后面页数有规律 2.研究html,找到简历的下载界面 3.进入下载界面,找到下载链接 4.通过下载链接下载数据,保存本地 import requests from lxml import etree import os headers
阅读全文
摘要:xpath的| 相当与交集 本爬虫爬取的是热门城市和全国城市,但是由于爬取的规则不同,所以在同一个xpath中使用了两种规则
阅读全文
摘要:4k图片爬取+中文乱码 此案例有三种乱码解决方法,推荐第一种 4k图片爬取其实和普通图片爬取的过程是没有本质区别的
阅读全文
摘要:xpath xpath两种使用方式 和bs类似,一种是调用本地资源,一种是网络资源 xpath表达式 层级:/一个层级 //多个层级 (注意如果从html开始取,要在前面加一个/ 写成/html,局部./li) 属性定位:类似//div[@class='zx'] 索引取值: 类似p[3](注意xpa
阅读全文
摘要:(. ?)实验室 ['www', '', '', 'www', '', '', 'www', '', ''] ['', '', '', '', '', '', '', '', '', '', '', '', '', '', ''] ['www', 'www', 'www'] ['w', 'w', '
阅读全文
摘要:bs4 安装 bs4有两种运行方式一种是处理本地资源,一种是处理网络资源 本地 网络 实例化对象的方法 soup.tagname 直接返回第一个 标签的内容 soup.find() soup.find_all() soup.select() 获取标签的文本内容 获取标签中的属性值 基本使用 案例爬取
阅读全文
摘要:糗图 图片爬取 主要思路 1.来到首页,查看主页有用图片存在html的规律 2.编写re提取图片路径 3.右键图片查看请求图片的具体路径 4.拼接图片请求路径 5.查看下一页界面的路径,找到界面请求路径规律 6.work,多界面爬取指定图片爬虫 import requests import re i
阅读全文
摘要:re实战记录 针对网页中的空格符 一般使用的 ,但是它不能匹配 ,所以使用 或者 匹配所有字符 import re l1=r''' ''' print(re.findall('[\d\D] ?
阅读全文
摘要:目标爬取社会信用码 http://125.35.6.84:81/xk/ 1.首先界面是一个简单的分页查询 2.刷新一下,发现数据是ajax请求的 3.查相关参数 4.点击一条记录进去 5.发现数据也是ajax请求的 6.查看参数发现,是根据之前的ID查询的 7.开始work,首先爬取前面数据的ID,
阅读全文
摘要:import requests import json if __name__ == '__main__': 记录总数 raw_count=0 查询页数 page=1 存储数据 data=[] 判断有无数据条件 size=10 python中没有null,防止转dict异常 global null
阅读全文
摘要:百度翻译 爬虫 爬取思路 1.首先打开百度翻译,输入dog查看运行过程 2.打开抓包,发现有三个sub的post请求,确定为ajax,最后一个post请求携带完整参数dog 3.然后查看返回数据为json串
阅读全文
摘要:网页采集器 UA伪装 UA伪装 请求载体身份标识的伪装: User Agent: 请求载体身份标识,通过浏览器发起的请求,请求载体为浏览器,则该请求的User Agent为浏览器的身份标识,如果使用爬虫程序发起的请求,则该请求的载体为爬虫程序,则该请求的User Agent为爬虫程序的身份标识。服务
阅读全文

浙公网安备 33010602011771号