会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
创客未来
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
13
14
15
16
17
18
19
20
21
···
53
下一页
2022年5月26日
爬虫_selenium_元素定位
摘要: 元素定位:自动化要做的就是模拟鼠标和键盘来操作这些元素,点击、输入等等。操作这些元素前首先要找到它们,webDriver提供很多定位元素的方法 方法: 1. find_element_by_id # 根据id来找到对象 button = browser.find_element_by_id('su'
阅读全文
posted @ 2022-05-26 11:18 创客未来
阅读(98)
评论(0)
推荐(0)
2022年5月25日
爬虫_selenium_基本使用
摘要: 1.什么是selenium? (1)selenium是一个用于web应用程序测试工具 (2)selenium测试直接运行在浏览器中,就像真正的用户在操作一样 (3)支持通过各种driver(FirfoxDirver,IternetExploreDriver,OperaDriver,ChromeDri
阅读全文
posted @ 2022-05-25 16:17 创客未来
阅读(80)
评论(0)
推荐(0)
爬虫_解析_BeautifulSoup
摘要: 1.基本简介 BeautifulSoup简称:bs4 BeautifulSoup,和lxml一样,是一个html的解析器,主要功能也是解析和提取数据 优缺点:效率没有lxml的效率高,接口设计人性化,使用方便 2.安装以及创建 2.1安装 pip install bs4 2.2导入 from bs4
阅读全文
posted @ 2022-05-25 15:45 创客未来
阅读(92)
评论(0)
推荐(0)
爬虫_解析_JsonPath
摘要: 1.Json Path介绍 看它的名字你就能知道,这Json Path和JSON文档有关系,正如XPath之于XML文档一样,JsonPath为Json文档提供了解析能力,通过使用JsonPath,你可以方便的查找节点、获取想要的数据,JsonPath是Json版的XPath。 JsonPath只能
阅读全文
posted @ 2022-05-25 13:10 创客未来
阅读(204)
评论(0)
推荐(0)
2022年5月24日
爬虫_解析_xpath
摘要: 1.xpath插件安装 (1) 打开chrome浏览器 (2)点击右上角小圆点 (3)更多工具 (4)扩展程序 (5)拖拽xpath插件到扩展程序中 (6)如果crx文件失效,需要将后缀修改为zip (7)再次拖拽 (8)关闭浏览器重新打开 (9)Ctrl + shift + x (10)出现小黑框
阅读全文
posted @ 2022-05-24 16:37 创客未来
阅读(110)
评论(0)
推荐(0)
爬虫_urllib_handler处理器
摘要: 为什么要学习handler? 如果定制更高级的请求头,随着业务逻辑的复杂请求对象的定制已经满足不了我们的需求(动态cookie和代理不能使用请求对象的定制) 1.Handler处理器的基本使用 #Handler的基本使用 import urllib.request url = 'http://www
阅读全文
posted @ 2022-05-24 13:21 创客未来
阅读(79)
评论(0)
推荐(0)
爬虫_urllib的Cookie登录
摘要: 适用场景:数据采集的时候需要经过登录然后进入到某个页面 案例目的是跳过登录直接进入个人信息页面 经过分析: 1.请求的url地址为:https://weibo.cn/2954041765/info 2.请求方式为:get 代码如下: #适用的场景:数据采集的时候需要绕过登录然后进入到某个页面 # i
阅读全文
posted @ 2022-05-24 09:39 创客未来
阅读(188)
评论(0)
推荐(0)
2022年5月23日
爬虫_urllib_URLError和HTTPError(异常处理)
摘要: 简介 1.HTTPError类是URLError类的子类 2.http错误:http错误是针对浏览器无法连接到服务器而增加出来的错误提示。引导并告诉浏览者该页面是哪里出现了问题 3.通过urllib发送请求的时候,有可能会发送失败,这个时候如果想让你的代码更加健壮性,可以通过try-except进行
阅读全文
posted @ 2022-05-23 14:51 创客未来
阅读(455)
评论(0)
推荐(0)
爬虫_urllib中ajax的post请求
摘要: 下载肯德基官网中餐厅的数据。 经过分析: 1.请求接口的地址:http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname 2.请求方式:post 3.请求参数: 全部代码: #获取肯德基官网数据 # import urllib.parse
阅读全文
posted @ 2022-05-23 14:23 创客未来
阅读(88)
评论(0)
推荐(0)
爬虫_urllib中ajax的get请求
摘要: 1.爬取豆瓣电影第一页数据并下载 #get请求 #获取豆瓣电影的第一页的数据并且保持起来 import urllib.request url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&
阅读全文
posted @ 2022-05-23 13:38 创客未来
阅读(88)
评论(0)
推荐(0)
上一页
1
···
13
14
15
16
17
18
19
20
21
···
53
下一页
公告