爬虫 - 文章分类 - 严永富

02_selenium 的各种操作

摘要：# 目标：拉钩网的招聘信息from selenium.webdriver import Chromefrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keys # 有键盘上所有键阅读全文

posted @ 2023-08-03 22:36 严永富阅读(8) 评论(0) 推荐(0)

03_iframe怎么办

摘要：1 阅读全文

posted @ 2023-08-03 22:35 严永富阅读(4) 评论(0) 推荐(0)

新发地新_异步_json_偶尔一俩个有问题

摘要：import asyncioimport aiofilesimport aiohttpasync def xin(url, data): headers = { 'Accept': '*/*', 'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8', 'Conne 阅读全文

posted @ 2023-08-03 22:33 严永富阅读(3) 评论(0) 推荐(0)

网吧电影 - 过期 - 上半部分 - 源代码 - iframe - m3u8 - 两层 - 下载并保存m3u8，名：second_m3u8.txt 文件

摘要：1. 打开播放视频暂停 f12 xhr 刷新网址找到 index.m3u8 复制 m3u8 在页面源代码查找视频页 -> iframe(src) -> 视频播放直接看iframe(src) 没办法右键的情况下怎么查看页面页面源代码 f12 -> Sources(源代码) -> ？url=ht 阅读全文

posted @ 2023-07-27 17:03 严永富阅读(22) 评论(0) 推荐(0)

盗版电影-爬取分析过程

摘要：网吧电影 91看剧云播TV 琪琪布电影网 """1. 一般情况下，一个网页里想要显示出一个视频资源。<video>2. 几乎没有视频网站会在video中直接给出视频的地址 # <video src="http://www.baidu.com/苍老师.MP4"></video> # 用户体验极差，占阅读全文

posted @ 2023-07-27 11:07 严永富阅读(59) 评论(0) 推荐(0)

新发地菜价过期-协程抓表格里的内容-及url 1-n的写法

摘要：from lxml import etreeimport asyncioimport aiofilesimport aiohttpimport csvasync def xin(url): async with aiohttp.ClientSession() as session: async wi 阅读全文

posted @ 2023-07-26 15:47 严永富阅读(11) 评论(0) 推荐(0)

数量检查

摘要：pycharm 目录里面鼠标左键点一下按住shift 鼠标左键点一下右键（用所选项目新建文件夹（155个项目）） F12 元素 ctrl+f 输入对应的xpath（//div[@class='section-box']/ul/li/a 这个xpath要写全 1of159 ）阅读全文

posted @ 2023-07-25 22:40 严永富阅读(3) 评论(0) 推荐(0)

05_扒光一部小说需要多久-协程爬取小说-aiofiles-请求问题

摘要：# _*_ coding: utf-8 _*_import asyncioimport timefrom lxml import etreeimport aiohttpimport aiofilesimport requestsasync def download_one(url): headers 阅读全文

posted @ 2023-07-25 22:40 严永富阅读(6) 评论(0) 推荐(0)

04_异步爬虫必修课_完整异步爬取图片

摘要：# aiohttp , aiofilesimport asyncioimport aiohttpimport aiofilesasync def download(url): print("开始下载", url) file_name = url.split("/")[-1] # 相当于request 阅读全文

posted @ 2023-07-13 12:49 严永富阅读(46) 评论(0) 推荐(0)

03_协程的返回值

摘要：import asyncioimport timeasync def func1(): print("我是func1") await asyncio.sleep(1) print("func1结束") return "func1的返回值"async def func2(): print("我是fun 阅读全文

posted @ 2023-07-13 12:48 严永富阅读(30) 评论(0) 推荐(0)

03_协程的返回值

摘要：1 阅读全文

posted @ 2023-07-13 12:48 严永富阅读(6) 评论(0) 推荐(0)

02_协程真正用途

摘要：import asyncioimport time## async def func1():# print("我是func1")# await asyncio.sleep(1)# print("fun1结束")### async def func2():# print("我是func2")# awa 阅读全文

posted @ 2023-07-13 12:48 严永富阅读(7) 评论(0) 推荐(0)

xpath 解析 resp.text table 去表头，保存为 csv

摘要：from lxml import etree# 在函数外面打开一个文件f = open('data.csv', mode='w', encoding='utf-8')tree = etree.HTML(resp.text)# 查看页面源代码，找到唯一的tr_list = tree.xpath("// 阅读全文

posted @ 2023-07-09 18:44 严永富阅读(13) 评论(0) 推荐(0)

多进程+线程池+爬取图片+队列

摘要："""分析：进程1. 从主页面中解析出详情页的url，从详情页中提取到图片的下载地址进程2. 把拿到的地址，进行下载队列：可以进行进程之间的通信"""import reimport requestsfrom multiprocessing import Process, Queue # Que 阅读全文

posted @ 2023-07-09 18:40 严永富阅读(145) 评论(0) 推荐(0)

进程与进程之间的数据传递 - 队列

摘要：可以经过数据库传递：MySQL、Oracle、SqlServer、SQLite、INFORMIX、Redis、MongoDB、HBase、Neo4J、CouchDB等阅读全文

posted @ 2023-07-09 18:40 严永富阅读(4) 评论(0) 推荐(0)

05_多线程_多进程_案例

摘要：1 阅读全文

posted @ 2023-07-09 18:40 严永富阅读(4) 评论(0) 推荐(0)

多进程

摘要：from multiprocessing import Processfrom concurrent.futures import ProcessPoolExecutor, ThreadPoolExecutor # (进程池和线程池一摸一样，这是进程池导包)def func(name): for i 阅读全文

posted @ 2023-07-09 18:40 严永富阅读(6) 评论(0) 推荐(0)

02_线程池

摘要：from concurrent.futures import ThreadPoolExecutorimport time# 线程池-写法# 创建任务# def func(name):# for i in range(10):# print(name, i)## if __name__ == '__m 阅读全文

posted @ 2023-07-09 18:39 严永富阅读(4) 评论(0) 推荐(0)

01_多线程

摘要：线程=》员工进程=》公司 from threading import Thread# # 单线程# def func(name):# for i in range(10):# print(name, i)# if __name__ == '__main__':# func("周杰伦")# func 阅读全文

posted @ 2023-07-09 18:39 严永富阅读(5) 评论(0) 推荐(0)

爬虫

摘要：1. F12 - 网络 - XHR - 输入用户名，密码，验证码乱登录 2. 复制cURL(bash) - Convert curl commands to code (curlconverter.com) - 阅读全文

posted @ 2023-07-09 18:39 严永富阅读(13) 评论(0) 推荐(0)

yanyongfu

文章分类 - 爬虫

公告