爬虫 - 文章分类 - Gsding

爬虫学习之视频爬取

摘要：错误写法如果我们用xpath爬取视频，只需要检阅元素，我们会查找到视频地址，理论上会直接获取到，但结果返回的是空列表：我们直接看页面源代码，搜索<video，结果是查找不到的，这是因为页面源代码是固定好的，而整个页面是不断更新的，因此多是用json写的，在开发者模式下，元素是基于页面源代码动阅读全文

posted @ 2021-11-23 11:35 Gsding 阅读(2215) 评论(1) 推荐(0)

xpath模块之猪八戒网找服务信息爬取

摘要：xpath基础语法 xpath获取的标签是下标从1开始 import requests import csv import time from lxml import etree # xpath写法： ,xpath('/标签/标签/@属性/text()内容') #tree = etree.XML(s 阅读全文

posted @ 2021-11-06 16:51 Gsding 阅读(252) 评论(0) 推荐(0)

bs4模块之照片爬取

摘要：这次获取的是电脑壁纸我们打开这个网址传送门首先获取源码，三步走，url,user-agent,encoding编码方式，注意的是user-agent一个网站只获取一次就可以，它的子网页跟它一样接下来将页面源码交给Beautifulsoup生成bs对象 bs 查找只有两个属性，find 和 f 阅读全文

posted @ 2021-11-05 08:41 Gsding 阅读(421) 评论(0) 推荐(0)

re模块之电影地址下载

摘要：这次爬取的是2021必看片下载地址查看源代码，，我们能搜索到'2021必看片' 编码方式是：首先我们获取的就是‘2021必看片’下面的列表嵌套的电影地址获取地址之后，遍历每一个地址，在每个电影地址里查找下载地址 code: # 通过域名请求2021必看片 # 获取子页面地址 # 请求子页面地址阅读全文

posted @ 2021-11-05 08:16 Gsding 阅读(200) 评论(0) 推荐(0)

re模块之豆瓣top250爬取

摘要：步骤：获取源代码 → requests 通过re提取有效信息数据分析csv 首先开启检查查找url和user-agent 请求方式是get，那对应的就是headers，若是post，对应的是data 我们看到的url知识第一页，这里写个循环就可： with open('豆瓣Top250爬取.csv 阅读全文

posted @ 2021-11-03 21:58 Gsding 阅读(82) 评论(0) 推荐(0)

正则表达式

摘要：阅读全文

posted @ 2021-11-03 21:46 Gsding 阅读(25) 评论(0) 推荐(0)

Welcome to Gsding's blog

文章分类 - 爬虫

公告