随笔分类 -  爬虫

摘要:一、分析 1、打开开发者工具,输入dog,会异步加载一个请求,查看请求,post请求且携带了一些参数 i: dog from: AUTO to: AUTO smartresult: dict client: fanyideskweb salt: 16500192809287 sign: 6bbe94 阅读全文
posted @ 2022-04-15 19:26 lnterpreter 阅读(57) 评论(0) 推荐(0)
摘要:一、网站视屏的流程 1、 <video src="不能播的视频。mp4"></vide0>,视屏小可以这样 2、视屏文件大,就进行切片 3、用户上传->转码(把视频做处理,2K, 1080, 标清) →切片处理(把单个的文件进行拆分) 4、用户在进行拉动进度条的时候,就是拉倒对应的切片 5、需要一个 阅读全文
posted @ 2021-11-08 17:44 lnterpreter 阅读(458) 评论(0) 推荐(0)
摘要:一、异步协程请求 import asyncio import aiohttp urls = [ "http://kr.shanghai-jiuxin.com/file/2020/1031/774218be86d832f359637ab120eba52d.jpg", "http://kr.shangh 阅读全文
posted @ 2021-11-06 22:07 lnterpreter 阅读(202) 评论(0) 推荐(0)
摘要:一、多线程 在url请求时,因为网络各方面原因会阻塞,多线程可以避免阻塞浪费等待时间,但不建议使用多线程 无法无限制的开启多线程,无限制开启会使得CPU频繁创建和销毁线程,浪费CPU的宝贵时间 第一种写法 from threading import Thread def func(): for i 阅读全文
posted @ 2021-11-06 14:29 lnterpreter 阅读(32) 评论(0) 推荐(0)
摘要:一、分析 1、数据不在页面上,猜测进行js请求 2、对js进行查找 3、对比 `` i: dog from: AUTO to: AUTO smartresult: dict client: fanyideskweb salt: 16361336785104 sign: 07f8b61a6f0174e 阅读全文
posted @ 2021-11-06 12:37 lnterpreter 阅读(196) 评论(0) 推荐(0)
摘要:一、分析 1、浏览器打开存在视屏的链接 2、访问可以打开 3、页面源码中不存在视屏链接,所以可以推断,页面进行了二次请求 4、分析出二次请求链接 5、发现有段被加密了 https://video.pearvideo.com/mp4/adshort/20211027/1636005645152-158 阅读全文
posted @ 2021-11-04 15:06 lnterpreter 阅读(77) 评论(0) 推荐(0)
摘要:一、通过路径获取数据 from lxml import etree xml = """ <book> <id>1</id> <name>zhao</name> <price>1.23</price> <author> <nick>赵</nick> <nick>钱</nick> <nick>孙</ni 阅读全文
posted @ 2021-11-03 17:03 lnterpreter 阅读(68) 评论(0) 推荐(0)
摘要:一、步骤 1、拿到主页面的前端源码,然后提取子页面的链接地址 2、通过href拿到子页面的内容。从子页面中找到图片的下载地址 3、下载图片 二、代码 import requests from bs4 import BeautifulSoup import os headers = { "User-A 阅读全文
posted @ 2021-11-03 11:44 lnterpreter 阅读(228) 评论(0) 推荐(0)
摘要:一、步骤 定位到2021必看片 从2021必看片中提取到子页面的链接地址 请求子页面的链接地址。拿到我们想要的下载地址.... 二、代码 1、获取页面信息 import requests import re headers = { "User-Agent":"Mozilla/5.0 (Windows 阅读全文
posted @ 2021-11-03 01:27 lnterpreter 阅读(181) 评论(0) 推荐(0)
摘要:一、电影名字爬取 import requests import re headers = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/9 阅读全文
posted @ 2021-11-02 18:14 lnterpreter 阅读(87) 评论(0) 推荐(0)
摘要:一、优缺点 正则的优点:速度快,效率高,准确性高 正则的缺点:新手上手难度有点儿高. 二、常用字符 . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线 \s 匹配任意的空白符 \d 匹配数字 \n 匹配一个换行符 \t 匹配一个制表符 ^ 匹配字符串的开始 $ 匹配字符串的结尾 \W 匹配 阅读全文
posted @ 2021-11-02 15:21 lnterpreter 阅读(162) 评论(0) 推荐(0)
摘要:一、post请求方式 1、观察需要爬取的东西 2、代码 import requests a = input("输入需要翻译的单词:") url = "https://fanyi.baidu.com/sug" headers = { "User-Agent":"Mozilla/5.0 (Windows 阅读全文
posted @ 2021-11-02 13:55 lnterpreter 阅读(42) 评论(0) 推荐(0)