随笔分类 -  爬虫

摘要:selenium无界面执行和反爬 无界面执行 规避服务端发现selenium请求的风险 阅读全文
posted @ 2019-09-08 18:07 zx125 阅读(466) 评论(0) 推荐(0)
摘要:selenium处理iframe和动作链 iframe iframe就是一个界面里嵌套了其他界面,这个时候selenium是不能从主界面找到子界面的属性,需要先找到子界面,再去找子界面的属性 动作链(拖动) 1.from selenium.webdriver import ActionChains 阅读全文
posted @ 2019-09-08 17:33 zx125 阅读(255) 评论(0) 推荐(0)
摘要:爬虫 selenium 特点 基于浏览器自动化的模块 可以模拟手动操作 1.便捷的获取网站中动态加载的数据 2.便捷的实现模拟登陆 3.可以获取js动态加载的数据 驱动下载和版本关系 http://chromedriver.storage.googleapis.com/index.html http 阅读全文
posted @ 2019-09-08 16:45 zx125 阅读(177) 评论(0) 推荐(0)
摘要:requests库 爬虫的本质就是模仿浏览器请求数据,所以requests帮我做的也就是这个事情 本质就是封装了urllib3 Get Post get post主要的区别就是携带参数的方式不同 get post 响应Response 梨视频首页视频 2 参考链接 https://www.cnblo 阅读全文
posted @ 2019-08-27 22:56 zx125 阅读(257) 评论(0) 推荐(0)
摘要:爬虫代理 相关网站 快代理 西祠代理 www.goubanjia.com 请求协议 http https注意请求的url是使用哪一种请求协议的 代理ip的匿名度 透明:服务器知道该次请求使用了代理,也知道请求对应的真实ip 匿名:知道使用了代理,不知道真实的ip 高匿:不知道是代理,和真实的ip 阅读全文
posted @ 2019-08-27 19:30 zx125 阅读(200) 评论(0) 推荐(0)
摘要:验证码识别 识别功能 识别功能是调用,网上的接口的,而且是付费的,但是平均几分钱一条 平台:云打码 注册一个普通用户,充值1块钱就行 然后下载python的demo 关于软件ID,密钥可以填写以上信息 识别案例 关于识别的功能,我把它封装到 功能里面了 阅读全文
posted @ 2019-08-26 16:27 zx125 阅读(295) 评论(0) 推荐(0)
摘要:校花网 思路 正常思路 遇到问题 图片链接有完整的和不完整的 阅读全文
posted @ 2019-08-26 15:06 zx125 阅读(1396) 评论(1) 推荐(1)
摘要:简历模板批量下载 思路 1.首先研究分页,发现除了第一页请求特例,后面页数有规律 2.研究html,找到简历的下载界面 3.进入下载界面,找到下载链接 4.通过下载链接下载数据,保存本地 import requests from lxml import etree import os headers 阅读全文
posted @ 2019-08-26 09:41 zx125 阅读(544) 评论(0) 推荐(0)
摘要:xpath的| 相当与交集 本爬虫爬取的是热门城市和全国城市,但是由于爬取的规则不同,所以在同一个xpath中使用了两种规则 阅读全文
posted @ 2019-08-25 21:28 zx125 阅读(172) 评论(0) 推荐(0)
摘要:4k图片爬取+中文乱码 此案例有三种乱码解决方法,推荐第一种 4k图片爬取其实和普通图片爬取的过程是没有本质区别的 阅读全文
posted @ 2019-08-25 20:40 zx125 阅读(398) 评论(0) 推荐(0)
摘要:xpath xpath两种使用方式 和bs类似,一种是调用本地资源,一种是网络资源 xpath表达式 层级:/一个层级 //多个层级 (注意如果从html开始取,要在前面加一个/ 写成/html,局部./li) 属性定位:类似//div[@class='zx'] 索引取值: 类似p[3](注意xpa 阅读全文
posted @ 2019-08-25 16:31 zx125 阅读(370) 评论(0) 推荐(0)
摘要:(. ?)实验室 ['www', '', '', 'www', '', '', 'www', '', ''] ['', '', '', '', '', '', '', '', '', '', '', '', '', '', ''] ['www', 'www', 'www'] ['w', 'w', ' 阅读全文
posted @ 2019-08-24 20:19 zx125 阅读(218) 评论(0) 推荐(1)
摘要:bs4 安装 bs4有两种运行方式一种是处理本地资源,一种是处理网络资源 本地 网络 实例化对象的方法 soup.tagname 直接返回第一个 标签的内容 soup.find() soup.find_all() soup.select() 获取标签的文本内容 获取标签中的属性值 基本使用 案例爬取 阅读全文
posted @ 2019-08-24 18:34 zx125 阅读(763) 评论(1) 推荐(1)
摘要:糗图 图片爬取 主要思路 1.来到首页,查看主页有用图片存在html的规律 2.编写re提取图片路径 3.右键图片查看请求图片的具体路径 4.拼接图片请求路径 5.查看下一页界面的路径,找到界面请求路径规律 6.work,多界面爬取指定图片爬虫 import requests import re i 阅读全文
posted @ 2019-08-24 14:25 zx125 阅读(886) 评论(0) 推荐(1)
摘要:re实战记录 针对网页中的空格符 一般使用的 ,但是它不能匹配 ,所以使用 或者 匹配所有字符 import re l1=r''' ''' print(re.findall('[\d\D] ? 阅读全文
posted @ 2019-08-24 13:57 zx125 阅读(184) 评论(0) 推荐(0)
摘要:目标爬取社会信用码 http://125.35.6.84:81/xk/ 1.首先界面是一个简单的分页查询 2.刷新一下,发现数据是ajax请求的 3.查相关参数 4.点击一条记录进去 5.发现数据也是ajax请求的 6.查看参数发现,是根据之前的ID查询的 7.开始work,首先爬取前面数据的ID, 阅读全文
posted @ 2019-08-23 12:10 zx125 阅读(843) 评论(2) 推荐(1)
摘要:import requests import json if __name__ == '__main__': 记录总数 raw_count=0 查询页数 page=1 存储数据 data=[] 判断有无数据条件 size=10 python中没有null,防止转dict异常 global null 阅读全文
posted @ 2019-08-21 17:04 zx125 阅读(177) 评论(0) 推荐(0)
摘要:百度翻译 爬虫 爬取思路 1.首先打开百度翻译,输入dog查看运行过程 2.打开抓包,发现有三个sub的post请求,确定为ajax,最后一个post请求携带完整参数dog 3.然后查看返回数据为json串 阅读全文
posted @ 2019-08-20 19:23 zx125 阅读(459) 评论(0) 推荐(1)
摘要:网页采集器 UA伪装 UA伪装 请求载体身份标识的伪装: User Agent: 请求载体身份标识,通过浏览器发起的请求,请求载体为浏览器,则该请求的User Agent为浏览器的身份标识,如果使用爬虫程序发起的请求,则该请求的载体为爬虫程序,则该请求的User Agent为爬虫程序的身份标识。服务 阅读全文
posted @ 2019-08-20 17:24 zx125 阅读(743) 评论(0) 推荐(0)