会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
白天的影子
博客园
::
首页
::
博问
::
闪存
::
新随笔
::
联系
::
订阅
::
管理
::
公告
2021年1月7日
爬虫基础:基本的urllib库
摘要: Urllib库是python内置的库 什么是Urllib 1. urllib.request 请求模块2. urllib.error 异常处理模块3. urllib.parse url解析模块4. urllib.robotparser robots.txt解析模块 用法 urlopen urllib
阅读全文
posted @ 2021-01-07 22:53 白天的影子
阅读(134)
评论(0)
推荐(0)
实战2:使用selenium爬取淘宝数据,保存在mongodb
摘要: 实战2:使用selenium爬取淘宝数据,保存在mongodb 配置文件 MONGO_URL = 'localhost' MONGO_DB = 'taobao' MONGO_TABLE = 'yintiao' 爬虫文件 from selenium import webdriver from sele
阅读全文
posted @ 2021-01-07 22:07 白天的影子
阅读(207)
评论(0)
推荐(0)
实战:requests和pyquery爬取美女图片
摘要: 实战:使用PyQuery和Requests爬取美女图片 前提:已安装request库、PyQuery、mongodb、pymongo ##config文件 MONGO_URL = 'localhost' MONGO_DB = 'uumtu' MONGO_TABLE = 'uumtu' KEYWORD
阅读全文
posted @ 2021-01-07 22:06 白天的影子
阅读(910)
评论(0)
推荐(0)
史上最全!Selenium元素定位的30种方式
摘要: Selenium对网页的控制是基于各种前端元素的,在使用过程中,对于元素的定位是基础,只有准去抓取到对应元素才能进行后续的自动化控制,我在这里将对各种元素定位方式进行总结归纳一下。 这里将统一使用百度首页(www.baidu.com)进行示例,f12可以查看具体前端代码。 WebDriver8种基本
阅读全文
posted @ 2021-01-07 01:08 白天的影子
阅读(1714)
评论(0)
推荐(0)
Selenium原理及浏览器驱动安装
摘要: selenium 组成部分 自动化程序 + 浏览器驱动(webdriver)+ 浏览器 Selenium 原理: 1. WebDriver提供了web自动化的各种语言(java,python)调用接口库 2. 通过各种浏览器的驱动(WebDriver)来驱动浏览器 自动化程序调用selenium提供
阅读全文
posted @ 2021-01-07 00:47 白天的影子
阅读(303)
评论(0)
推荐(0)
Selenium学习:单选框、复选框、下拉框元素选择
摘要: 单选框 源码 <input type="radio" name="subject[0]" required="" value="F1" aria-required="true"> <input type="radio" name="subject[0]" required="" value="F2"
阅读全文
posted @ 2021-01-07 00:13 白天的影子
阅读(574)
评论(0)
推荐(0)
Selenium学习:浏览器操作
摘要: 1. 获取当前窗口的title driver.title 2. 获取当前窗口地址栏url地址 driver.current_url 3. 截取当前网页截屏,并制定截图位置 driver.get_sreenshot_as_file('D:\\pic1.png') 4. 保留当前窗口句柄 mainWin
阅读全文
posted @ 2021-01-07 00:02 白天的影子
阅读(116)
评论(0)
推荐(0)