爬虫 - 随笔分类(第2页) - zx125

摘要：selenium无界面执行和反爬无界面执行规避服务端发现selenium请求的风险阅读全文

posted @ 2019-09-08 18:07 zx125 阅读(466) 评论(0) 推荐(0)

摘要：selenium处理iframe和动作链 iframe iframe就是一个界面里嵌套了其他界面，这个时候selenium是不能从主界面找到子界面的属性，需要先找到子界面，再去找子界面的属性动作链（拖动） 1.from selenium.webdriver import ActionChains 阅读全文

posted @ 2019-09-08 17:33 zx125 阅读(255) 评论(0) 推荐(0)

爬虫-selenium

摘要：爬虫 selenium 特点基于浏览器自动化的模块可以模拟手动操作 1.便捷的获取网站中动态加载的数据 2.便捷的实现模拟登陆 3.可以获取js动态加载的数据驱动下载和版本关系 http://chromedriver.storage.googleapis.com/index.html http 阅读全文

posted @ 2019-09-08 16:45 zx125 阅读(177) 评论(0) 推荐(0)

requests-异步-梨视频下载

摘要：requests库爬虫的本质就是模仿浏览器请求数据，所以requests帮我做的也就是这个事情本质就是封装了urllib3 Get Post get post主要的区别就是携带参数的方式不同 get post 响应Response 梨视频首页视频 2 参考链接 https://www.cnblo 阅读全文

posted @ 2019-08-27 22:56 zx125 阅读(257) 评论(0) 推荐(0)

爬虫代理

摘要：爬虫代理相关网站快代理西祠代理 www.goubanjia.com 请求协议 http https注意请求的url是使用哪一种请求协议的代理ip的匿名度透明：服务器知道该次请求使用了代理，也知道请求对应的真实ip 匿名：知道使用了代理，不知道真实的ip 高匿：不知道是代理，和真实的ip 阅读全文

posted @ 2019-08-27 19:30 zx125 阅读(200) 评论(0) 推荐(0)

验证码识别

摘要：验证码识别识别功能识别功能是调用，网上的接口的，而且是付费的，但是平均几分钱一条平台：云打码注册一个普通用户，充值1块钱就行然后下载python的demo 关于软件ID，密钥可以填写以上信息识别案例关于识别的功能，我把它封装到功能里面了阅读全文

posted @ 2019-08-26 16:27 zx125 阅读(295) 评论(0) 推荐(0)

校花网

摘要：校花网思路正常思路遇到问题图片链接有完整的和不完整的阅读全文

posted @ 2019-08-26 15:06 zx125 阅读(1396) 评论(1) 推荐(1)

简历模板批量下载

摘要：简历模板批量下载思路 1.首先研究分页，发现除了第一页请求特例，后面页数有规律 2.研究html，找到简历的下载界面 3.进入下载界面，找到下载链接 4.通过下载链接下载数据，保存本地 import requests from lxml import etree import os headers 阅读全文

posted @ 2019-08-26 09:41 zx125 阅读(544) 评论(0) 推荐(0)

xpath的|

摘要：xpath的| 相当与交集本爬虫爬取的是热门城市和全国城市，但是由于爬取的规则不同，所以在同一个xpath中使用了两种规则阅读全文

posted @ 2019-08-25 21:28 zx125 阅读(172) 评论(0) 推荐(0)

4k图片爬取+中文乱码

摘要：4k图片爬取+中文乱码此案例有三种乱码解决方法，推荐第一种 4k图片爬取其实和普通图片爬取的过程是没有本质区别的阅读全文

posted @ 2019-08-25 20:40 zx125 阅读(398) 评论(0) 推荐(0)

xpath-房价爬取

摘要：xpath xpath两种使用方式和bs类似，一种是调用本地资源，一种是网络资源 xpath表达式层级：/一个层级 //多个层级（注意如果从html开始取，要在前面加一个/ 写成/html，局部./li) 属性定位:类似//div[@class='zx'] 索引取值: 类似p[3]（注意xpa 阅读全文

posted @ 2019-08-25 16:31 zx125 阅读(370) 评论(0) 推荐(0)

（.*?）实验室

摘要：（. ?）实验室 ['www', '', '', 'www', '', '', 'www', '', ''] ['', '', '', '', '', '', '', '', '', '', '', '', '', '', ''] ['www', 'www', 'www'] ['w', 'w', ' 阅读全文

posted @ 2019-08-24 20:19 zx125 阅读(218) 评论(0) 推荐(1)

bs4-爬取小说

摘要：bs4 安装 bs4有两种运行方式一种是处理本地资源，一种是处理网络资源本地网络实例化对象的方法 soup.tagname 直接返回第一个标签的内容 soup.find() soup.find_all() soup.select() 获取标签的文本内容获取标签中的属性值基本使用案例爬取阅读全文

posted @ 2019-08-24 18:34 zx125 阅读(763) 评论(1) 推荐(1)

糗图-图片爬取

摘要：糗图图片爬取主要思路 1.来到首页，查看主页有用图片存在html的规律 2.编写re提取图片路径 3.右键图片查看请求图片的具体路径 4.拼接图片请求路径 5.查看下一页界面的路径，找到界面请求路径规律 6.work,多界面爬取指定图片爬虫 import requests import re i 阅读全文

posted @ 2019-08-24 14:25 zx125 阅读(886) 评论(0) 推荐(1)

re实战记录

摘要：re实战记录针对网页中的空格符一般使用的，但是它不能匹配 ,所以使用或者匹配所有字符 import re l1=r''' ''' print(re.findall('[\d\D] ? 阅读全文

posted @ 2019-08-24 13:57 zx125 阅读(184) 评论(0) 推荐(0)

目标爬取社会信用码

摘要：目标爬取社会信用码 http://125.35.6.84:81/xk/ 1.首先界面是一个简单的分页查询 2.刷新一下，发现数据是ajax请求的 3.查相关参数 4.点击一条记录进去 5.发现数据也是ajax请求的 6.查看参数发现，是根据之前的ID查询的 7.开始work，首先爬取前面数据的ID，阅读全文

posted @ 2019-08-23 12:10 zx125 阅读(843) 评论(2) 推荐(1)

KFC-位置分页爬虫

摘要：import requests import json if __name__ == '__main__': 记录总数 raw_count=0 查询页数 page=1 存储数据 data=[] 判断有无数据条件 size=10 python中没有null,防止转dict异常 global null 阅读全文

posted @ 2019-08-21 17:04 zx125 阅读(177) 评论(0) 推荐(0)

百度翻译-爬虫

摘要：百度翻译爬虫爬取思路 1.首先打开百度翻译，输入dog查看运行过程 2.打开抓包，发现有三个sub的post请求，确定为ajax，最后一个post请求携带完整参数dog 3.然后查看返回数据为json串阅读全文

posted @ 2019-08-20 19:23 zx125 阅读(459) 评论(0) 推荐(1)

网页采集器-UA伪装

摘要：网页采集器 UA伪装 UA伪装请求载体身份标识的伪装: User Agent: 请求载体身份标识，通过浏览器发起的请求，请求载体为浏览器，则该请求的User Agent为浏览器的身份标识，如果使用爬虫程序发起的请求，则该请求的载体为爬虫程序，则该请求的User Agent为爬虫程序的身份标识。服务阅读全文

posted @ 2019-08-20 17:24 zx125 阅读(743) 评论(0) 推荐(0)

zx125

随笔分类 - 爬虫

公告