python-Crawler - 随笔分类 - Lust4Life

selenium-嘿

摘要：2020.2.19 编辑整体示例定位元素查找单个元素常用的查找元素方法: find_element_by_name (标签名称) find_element_by_id find_element_by_xpath find_element_by_link_text find_element_b 阅读全文

posted @ 2020-04-02 17:50 Lust4Life 阅读(181) 评论(0) 推荐(0)

爬虫ip代理池分析使用

摘要：代码目录结构 https://github.com/Python3WebSpider/ProxyPool/ #文件目录组织结构 . ├── deployment.yml ├── docker-compose.yml ├── Dockerfile ├── error.log ├── examples 阅读全文

posted @ 2020-03-23 16:35 Lust4Life 阅读(536) 评论(0) 推荐(0)

selenium-5:实操

摘要：5,实战操作使用google翻译操作步骤示例操作示例: 定位一组对象批量操作 send keys 按键模拟操作: 处理button group button group就是按钮组，将一组按钮排列在一起。处理这种对象的思路一般是先找到button group的包裹(wrapper)div，阅读全文

posted @ 2020-03-14 18:51 Lust4Life 阅读(278) 评论(0) 推荐(0)

selenium-4:等待

摘要：４,等待如今，大多数Web应用程序都在使用AJAX技术。当浏览器加载页面时，该页面中的元素可能会以不同的时间间隔加载。这使定位元素变得困难：如果DOM中尚不存在元素，则定位函数将引发ElementNotVisibleException异常。使用等待，我们可以解决此问题。等待在执行的动作之间阅读全文

posted @ 2020-03-14 18:50 Lust4Life 阅读(359) 评论(0) 推荐(0)

selenium-3:定位元素

摘要：３,定位元素测试对象的定位和操作是webdriver的核心内容定位对象的目的一般有下面几种操作对象获得对象的属性，如获得测试对象的class属性，name属性等等获得对象的text 获得对象的数量 webdriver提供了一系列的对象定位方法，常用的有以下几种 id name class 阅读全文

posted @ 2020-03-14 18:49 Lust4Life 阅读(256) 评论(0) 推荐(0)

selenium-2:导航及页面交互

摘要：２,导航与页面交互启动关闭浏览器关闭浏览器有两种方式： close方法 quit方法 close方法关闭当前的浏览器窗口，quit方法不仅关闭窗口，还会彻底的退出webdriver，释放与driver server之间的连接获取网页源码一些方法导航通过调用get 方法，导航到一个url 阅读全文

posted @ 2020-03-14 18:48 Lust4Life 阅读(385) 评论(0) 推荐(0)

selenium-1

摘要：１,基本原理阶段１基于JavaScript的代码库，使用这套代码库可以进行页面的交互操作，并且可以重复地在不同浏览器上进行各种测试操作，通过不断改进和优化，这个代码库逐渐成为Selenium Core。Selenium Core为Selenium Remote Control (RC) 和 Se 阅读全文

posted @ 2020-03-14 18:47 Lust4Life 阅读(249) 评论(0) 推荐(0)

10，zzlian爬取

摘要：职位属性分析 json 根据XHR获取的数据json 数据获取(浏览器) 可以使用无头浏览器获取数据使用工具获取数据操作流程 1,获取url(无头浏览器) 2,根据每个url 去获取他的职位细节考虑将无头浏览器的功能封装到一个类里面使用 4,保存数据以什么格式保存,后期可以随时获取分析,保存阅读全文

posted @ 2020-03-09 22:54 Lust4Life 阅读(730) 评论(0) 推荐(0)

9-豆瓣电影

摘要：未完成豆瓣电影 https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=660&limit=20 https://movie.douban.com/j/chart/top_list?t 阅读全文

posted @ 2020-03-09 22:49 Lust4Life 阅读(241) 评论(0) 推荐(0)

8selenium

摘要：2020.2.19 编辑整体示例定位元素查找单个元素常用的查找元素方法: find_element_by_name (标签名称) find_element_by_id find_element_by_xpath find_element_by_link_text find_element_b 阅读全文

posted @ 2020-03-09 22:48 Lust4Life 阅读(151) 评论(0) 推荐(0)

7，pyquery获取数据

摘要：https://pyquery.readthedocs.io/en/latest/ pyquery allows you to make jquery queries on xml documents. The API is as much as possible the similar to jq 阅读全文

posted @ 2020-03-09 22:46 Lust4Life 阅读(1419) 评论(0) 推荐(0)

6,BeautifulSoup-获取数据

摘要：5,BeautifulSoup 获取数据快速了解解析器 Beautiful Soup支持Python标准库中的HTML解析器(Python标准库解析器),还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐安装阅读全文

posted @ 2020-03-09 22:44 Lust4Life 阅读(222) 评论(0) 推荐(0)

5-正则匹配获取数据

摘要：4,正则匹配-数据获取 https://docs.python.org/zh-cn/3/library/re.html 正则表达式是对字符串操作的一种逻辑公式，事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符”，这个“规则字符” 来表达对字符的一种过滤逻辑常见的正则表达式符号和特阅读全文

posted @ 2020-03-09 22:42 Lust4Life 阅读(2054) 评论(0) 推荐(0)

4，xpath获取数据

摘要：xpath XPath 使用路径表达式在 XML 文档中进行导航. XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。 1）可在XML中查找信息 2）支持HTML的查找 3）通过元素和属性进行导航安装术语节点阅读全文

posted @ 2020-03-09 22:41 Lust4Life 阅读(3803) 评论(1) 推荐(1)

3-Requests网络请求

摘要：3,Requests-网络请求 Requests是用python语言基于urllib编写的总体功能演示 import requests response = requests.get("https://www.baidu.com") print(type(response)) <class 're 阅读全文

posted @ 2020-03-09 22:40 Lust4Life 阅读(838) 评论(0) 推荐(0)

2，urllib库-网络请求

摘要：2,Urllib库使用网络请求 "URL 处理模块" 1. 项目列表urllib 是一个收集了多个用到 URL 的模块的包： 2. 项目列表urllib.request 打开和读取 URL 3. 项目列表urllib.error 包含 urllib.request 抛出的异常 4. 项目列表url 阅读全文

posted @ 2020-03-09 22:39 Lust4Life 阅读(274) 评论(0) 推荐(0)

1，爬虫概览

摘要：1,爬虫知识来源 "Python爬虫参考文档" 可以爬取的数据网页文本：如HTML文档，Json格式化文本等图片：获取到的是二进制文件，保存为图片格式视频:同样是二进制文件其他：只要请求到的，都可以获取解析数据使用的方法 1. 直接处理 2. Json解析 3. 正则表达式处理 4. Be 阅读全文

posted @ 2020-03-09 22:37 Lust4Life 阅读(163) 评论(0) 推荐(0)

Loading

𝖑𝖚𝖘𝖙4𝖑𝖎𝖋𝖊

随笔分类 - python-Crawler

公告