白天的影子

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

2021年1月7日

摘要: Urllib库是python内置的库 什么是Urllib 1. urllib.request 请求模块2. urllib.error 异常处理模块3. urllib.parse url解析模块4. urllib.robotparser robots.txt解析模块 用法 urlopen urllib 阅读全文
posted @ 2021-01-07 22:53 白天的影子 阅读(120) 评论(0) 推荐(0) 编辑

摘要: 实战2:使用selenium爬取淘宝数据,保存在mongodb 配置文件 MONGO_URL = 'localhost' MONGO_DB = 'taobao' MONGO_TABLE = 'yintiao' 爬虫文件 from selenium import webdriver from sele 阅读全文
posted @ 2021-01-07 22:07 白天的影子 阅读(189) 评论(0) 推荐(0) 编辑

摘要: 实战:使用PyQuery和Requests爬取美女图片 前提:已安装request库、PyQuery、mongodb、pymongo ##config文件 MONGO_URL = 'localhost' MONGO_DB = 'uumtu' MONGO_TABLE = 'uumtu' KEYWORD 阅读全文
posted @ 2021-01-07 22:06 白天的影子 阅读(865) 评论(0) 推荐(0) 编辑

摘要: Selenium对网页的控制是基于各种前端元素的,在使用过程中,对于元素的定位是基础,只有准去抓取到对应元素才能进行后续的自动化控制,我在这里将对各种元素定位方式进行总结归纳一下。 这里将统一使用百度首页(www.baidu.com)进行示例,f12可以查看具体前端代码。 WebDriver8种基本 阅读全文
posted @ 2021-01-07 01:08 白天的影子 阅读(1601) 评论(0) 推荐(0) 编辑

摘要: selenium 组成部分 自动化程序 + 浏览器驱动(webdriver)+ 浏览器 Selenium 原理: 1. WebDriver提供了web自动化的各种语言(java,python)调用接口库 2. 通过各种浏览器的驱动(WebDriver)来驱动浏览器 自动化程序调用selenium提供 阅读全文
posted @ 2021-01-07 00:47 白天的影子 阅读(283) 评论(0) 推荐(0) 编辑

摘要: 单选框 源码 <input type="radio" name="subject[0]" required="" value="F1" aria-required="true"> <input type="radio" name="subject[0]" required="" value="F2" 阅读全文
posted @ 2021-01-07 00:13 白天的影子 阅读(411) 评论(0) 推荐(0) 编辑

摘要: 1. 获取当前窗口的title driver.title 2. 获取当前窗口地址栏url地址 driver.current_url 3. 截取当前网页截屏,并制定截图位置 driver.get_sreenshot_as_file('D:\\pic1.png') 4. 保留当前窗口句柄 mainWin 阅读全文
posted @ 2021-01-07 00:02 白天的影子 阅读(102) 评论(0) 推荐(0) 编辑