随笔分类 - python-Crawler
摘要:2020.2.19 编辑 整体示例 定位元素 查找单个元素 常用的查找元素方法: find_element_by_name (标签名称) find_element_by_id find_element_by_xpath find_element_by_link_text find_element_b
阅读全文
摘要:代码目录结构 https://github.com/Python3WebSpider/ProxyPool/ #文件目录组织结构 . ├── deployment.yml ├── docker-compose.yml ├── Dockerfile ├── error.log ├── examples
阅读全文
摘要:5,实战操作 使用google翻译 操作步骤 示例 操作示例: 定位一组对象 批量操作 send keys 按键模拟 操作: 处理button group button group就是按钮组,将一组按钮排列在一起。处理这种对象的思路一般是先找到button group的包裹(wrapper)div,
阅读全文
摘要:4,等待 如今,大多数Web应用程序都在使用AJAX技术。 当浏览器加载页面时,该页面中的元素可能会以不同的时间间隔加载。 这使定位元素变得困难:如果DOM中尚不存在元素,则定位函数将引发ElementNotVisibleException异常。 使用等待,我们可以解决此问题。 等待在执行的动作之间
阅读全文
摘要:3,定位元素 测试对象的定位和操作是webdriver的核心内容 定位对象的目的一般有下面几种 操作对象 获得对象的属性,如获得测试对象的class属性,name属性等等 获得对象的text 获得对象的数量 webdriver提供了一系列的对象定位方法,常用的有以下几种 id name class
阅读全文
摘要:2,导航与页面交互 启动关闭浏览器 关闭浏览器有两种方式: close方法 quit方法 close方法关闭当前的浏览器窗口,quit方法不仅关闭窗口,还会彻底的退出webdriver,释放与driver server之间的连接 获取网页源码 一些方法 导航 通过调用get 方法,导航到一个url
阅读全文
摘要:1,基本原理 阶段1 基于JavaScript的代码库,使用这套代码库可以进行页面的交互操作,并且可以重复地在不同浏览器上进行各种测试操作,通过不断改进和优化,这个代码库逐渐成为Selenium Core。Selenium Core为Selenium Remote Control (RC) 和 Se
阅读全文
摘要:职位属性分析 json 根据XHR获取的数据json 数据获取(浏览器) 可以使用无头浏览器获取数据 使用工具获取数据 操作流程 1,获取url(无头浏览器) 2,根据每个url 去获取他的职位细节 考虑将无头浏览器的功能封装到一个类里面使用 4,保存数据 以什么格式保存,后期可以随时获取分析,保存
阅读全文
摘要:未完成 豆瓣电影 https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=660&limit=20 https://movie.douban.com/j/chart/top_list?t
阅读全文
摘要:2020.2.19 编辑 整体示例 定位元素 查找单个元素 常用的查找元素方法: find_element_by_name (标签名称) find_element_by_id find_element_by_xpath find_element_by_link_text find_element_b
阅读全文
摘要:https://pyquery.readthedocs.io/en/latest/ pyquery allows you to make jquery queries on xml documents. The API is as much as possible the similar to jq
阅读全文
摘要:5,BeautifulSoup 获取数据 快速了解 解析器 Beautiful Soup支持Python标准库中的HTML解析器(Python标准库解析器),还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装
阅读全文
摘要:4,正则匹配-数据获取 https://docs.python.org/zh-cn/3/library/re.html 正则表达式是对字符串操作的一种逻辑公式,事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑 常见的正则表达式符号和特
阅读全文
摘要:xpath XPath 使用路径表达式在 XML 文档中进行导航. XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。 1) 可在XML中查找信息 2) 支持HTML的查找 3) 通过元素和属性进行导航 安装 术语 节点
阅读全文
摘要:3,Requests-网络请求 Requests是用python语言基于urllib编写的 总体功能演示 import requests response = requests.get("https://www.baidu.com") print(type(response)) <class 're
阅读全文
摘要:2,Urllib库使用 网络请求 "URL 处理模块" 1. 项目列表urllib 是一个收集了多个用到 URL 的模块的包: 2. 项目列表urllib.request 打开和读取 URL 3. 项目列表urllib.error 包含 urllib.request 抛出的异常 4. 项目列表url
阅读全文
摘要:1,爬虫知识来源 "Python爬虫参考文档" 可以爬取的数据 网页文本:如HTML文档,Json格式化文本等 图片:获取到的是二进制文件,保存为图片格式 视频:同样是二进制文件 其他:只要请求到的,都可以获取 解析数据使用的方法 1. 直接处理 2. Json解析 3. 正则表达式处理 4. Be
阅读全文

浙公网安备 33010602011771号