创客未来

2022年5月26日

摘要：元素定位：自动化要做的就是模拟鼠标和键盘来操作这些元素，点击、输入等等。操作这些元素前首先要找到它们，webDriver提供很多定位元素的方法方法： 1. find_element_by_id # 根据id来找到对象 button = browser.find_element_by_id('su' 阅读全文

posted @ 2022-05-26 11:18 创客未来阅读(102) 评论(0) 推荐(0)

2022年5月25日

爬虫_selenium_基本使用

摘要： 1.什么是selenium？（1）selenium是一个用于web应用程序测试工具（2）selenium测试直接运行在浏览器中，就像真正的用户在操作一样（3）支持通过各种driver（FirfoxDirver,IternetExploreDriver,OperaDriver,ChromeDri 阅读全文

posted @ 2022-05-25 16:17 创客未来阅读(84) 评论(0) 推荐(0)

爬虫_解析_BeautifulSoup

摘要： 1.基本简介 BeautifulSoup简称：bs4 BeautifulSoup，和lxml一样，是一个html的解析器，主要功能也是解析和提取数据优缺点：效率没有lxml的效率高，接口设计人性化，使用方便 2.安装以及创建 2.1安装 pip install bs4 2.2导入 from bs4 阅读全文

posted @ 2022-05-25 15:45 创客未来阅读(102) 评论(0) 推荐(0)

爬虫_解析_JsonPath

摘要： 1.Json Path介绍看它的名字你就能知道，这Json Path和JSON文档有关系，正如XPath之于XML文档一样，JsonPath为Json文档提供了解析能力，通过使用JsonPath，你可以方便的查找节点、获取想要的数据，JsonPath是Json版的XPath。 JsonPath只能阅读全文

posted @ 2022-05-25 13:10 创客未来阅读(210) 评论(0) 推荐(0)

2022年5月24日

爬虫_解析_xpath

摘要： 1.xpath插件安装（1) 打开chrome浏览器（2）点击右上角小圆点（3）更多工具（4）扩展程序（5）拖拽xpath插件到扩展程序中（6）如果crx文件失效，需要将后缀修改为zip （7）再次拖拽（8）关闭浏览器重新打开（9）Ctrl + shift + x （10）出现小黑框阅读全文

posted @ 2022-05-24 16:37 创客未来阅读(117) 评论(0) 推荐(0)

爬虫_urllib_handler处理器

摘要：为什么要学习handler？如果定制更高级的请求头，随着业务逻辑的复杂请求对象的定制已经满足不了我们的需求（动态cookie和代理不能使用请求对象的定制） 1.Handler处理器的基本使用 #Handler的基本使用 import urllib.request url = 'http://www 阅读全文

posted @ 2022-05-24 13:21 创客未来阅读(86) 评论(0) 推荐(0)

爬虫_urllib的Cookie登录

摘要：适用场景：数据采集的时候需要经过登录然后进入到某个页面案例目的是跳过登录直接进入个人信息页面经过分析： 1.请求的url地址为：https://weibo.cn/2954041765/info 2.请求方式为：get 代码如下： #适用的场景：数据采集的时候需要绕过登录然后进入到某个页面 # i 阅读全文

posted @ 2022-05-24 09:39 创客未来阅读(195) 评论(0) 推荐(0)

2022年5月23日

爬虫_urllib_URLError和HTTPError（异常处理）

摘要：简介 1.HTTPError类是URLError类的子类 2.http错误：http错误是针对浏览器无法连接到服务器而增加出来的错误提示。引导并告诉浏览者该页面是哪里出现了问题 3.通过urllib发送请求的时候，有可能会发送失败，这个时候如果想让你的代码更加健壮性，可以通过try-except进行阅读全文

posted @ 2022-05-23 14:51 创客未来阅读(459) 评论(0) 推荐(0)

爬虫_urllib中ajax的post请求

摘要：下载肯德基官网中餐厅的数据。经过分析： 1.请求接口的地址：http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname 2.请求方式：post 3.请求参数：全部代码： #获取肯德基官网数据 # import urllib.parse 阅读全文

posted @ 2022-05-23 14:23 创客未来阅读(95) 评论(0) 推荐(0)

爬虫_urllib中ajax的get请求

摘要： 1.爬取豆瓣电影第一页数据并下载 #get请求 #获取豆瓣电影的第一页的数据并且保持起来 import urllib.request url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=& 阅读全文

posted @ 2022-05-23 13:38 创客未来阅读(94) 评论(0) 推荐(0)

公告