爬虫 - 随笔分类 - 与鹿逐秋

Python Scrapy框架

摘要：一、安装 #Windows平台 1、pip install wheel #安装后，便支持通过wheel文件安装软件，wheel文件官网：https://www.lfd.uci.edu/~gohlke/pythonlibs 2、下载twisted的wheel文件：http://www.lfd.uci. 阅读全文

posted @ 2023-03-22 00:50 与鹿逐秋阅读(71) 评论(0) 推荐(0)

Python selenium模块

摘要：# 一、环境安装 - 下载安装selenium：pip install selenium - 下载浏览器驱动程序：http://chromedriver.storage.googleapis.com/index.html # 二、selenium的简单实用 ```python import time 阅读全文

posted @ 2023-03-10 01:12 与鹿逐秋阅读(206) 评论(0) 推荐(0)

Python m3u8视频爬取

摘要：一、爬取未加密m3u8视频 import os import requests import aiohttp import asyncio from urllib.parse import urljoin # 利用协程异步爬取数据 async def get_ts_data(url, headers 阅读全文

posted @ 2023-03-08 02:43 与鹿逐秋阅读(854) 评论(0) 推荐(0)

Python爬虫性能优化

摘要：一、背景知识爬虫的本质就是一个socket客户端与服务端的通信过程，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个结束后才能继续下一个，效率会非常低。需要强调的是：对于单线程下串行N个任务，并不完全等同于低效，如果这N个任务都是纯计算的任务，那么该线程对cpu的阅读全文

posted @ 2023-03-07 04:31 与鹿逐秋阅读(211) 评论(0) 推荐(0)

Python xpath模块

摘要：一、开始使用使用时先安装 lxml 包 pip install lxml 和beautifulsoup类似，首先我们需要得到一个文档树把文本转换成一个文档树对象 from lxml import etree if __name__ == '__main__': doc=''' <div> <ul 阅读全文

posted @ 2023-03-05 22:40 与鹿逐秋阅读(99) 评论(0) 推荐(0)

Python bs4模块

摘要：一、介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautifu 阅读全文

posted @ 2023-03-04 03:28 与鹿逐秋阅读(133) 评论(0) 推荐(0)

Python requests模块

摘要：一、介绍介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3）注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的request请求安装：pi 阅读全文

posted @ 2023-03-04 03:28 与鹿逐秋阅读(85) 评论(0) 推荐(0)

与鹿逐秋

随笔分类 - 爬虫

公告