文章分类 -  爬虫

摘要:错误写法 如果我们用xpath爬取视频,只需要检阅元素, 我们会查找到视频地址,理论上会直接获取到,但结果返回的是空列表: 我们直接看页面源代码,搜索<video,结果是查找不到的,这是因为页面源代码是固定好的,而整个页面是不断更新的,因此多是用json写的,在开发者模式下, 元素是基于页面源代码动 阅读全文
posted @ 2021-11-23 11:35 Gsding 阅读(2215) 评论(1) 推荐(0)
摘要:xpath基础语法 xpath获取的标签是下标从1开始 import requests import csv import time from lxml import etree # xpath写法: ,xpath('/标签/标签/@属性/text()内容') #tree = etree.XML(s 阅读全文
posted @ 2021-11-06 16:51 Gsding 阅读(252) 评论(0) 推荐(0)
摘要:这次获取的是电脑壁纸 我们打开这个网址 传送门 首先获取源码,三步走,url,user-agent,encoding编码方式,注意的是user-agent一个网站只获取一次就可以,它的子网页跟它一样 接下来将页面源码交给Beautifulsoup生成bs对象 bs 查找只有两个属性,find 和 f 阅读全文
posted @ 2021-11-05 08:41 Gsding 阅读(421) 评论(0) 推荐(0)
摘要:这次爬取的是2021必看片下载地址 查看源代码,,我们能搜索到'2021必看片' 编码方式是: 首先我们获取的就是‘2021必看片’下面的列表嵌套的电影地址 获取地址之后,遍历每一个地址,在每个电影地址里查找下载地址 code: # 通过域名请求2021必看片 # 获取子页面地址 # 请求子页面地址 阅读全文
posted @ 2021-11-05 08:16 Gsding 阅读(200) 评论(0) 推荐(0)
摘要:步骤:获取源代码 → requests 通过re提取有效信息 数据分析csv 首先开启检查查找url和user-agent 请求方式是get,那对应的就是headers,若是post,对应的是data 我们看到的url知识第一页,这里写个循环就可: with open('豆瓣Top250爬取.csv 阅读全文
posted @ 2021-11-03 21:58 Gsding 阅读(82) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2021-11-03 21:46 Gsding 阅读(25) 评论(0) 推荐(0)