爬虫 - 随笔分类 - lnterpreter

有道词典js

摘要：一、分析 1、打开开发者工具，输入dog，会异步加载一个请求，查看请求，post请求且携带了一些参数 i: dog from: AUTO to: AUTO smartresult: dict client: fanyideskweb salt: 16500192809287 sign: 6bbe94 阅读全文

posted @ 2022-04-15 19:26 lnterpreter 阅读(57) 评论(0) 推荐(0)

视屏爬取

摘要：一、网站视屏的流程 1、 <video src="不能播的视频。mp4"></vide0>，视屏小可以这样 2、视屏文件大，就进行切片 3、用户上传->转码(把视频做处理，2K， 1080，标清) →切片处理(把单个的文件进行拆分) 4、用户在进行拉动进度条的时候，就是拉倒对应的切片 5、需要一个阅读全文

posted @ 2021-11-08 17:44 lnterpreter 阅读(458) 评论(0) 推荐(0)

异步协程请求

摘要：一、异步协程请求 import asyncio import aiohttp urls = [ "http://kr.shanghai-jiuxin.com/file/2020/1031/774218be86d832f359637ab120eba52d.jpg", "http://kr.shangh 阅读全文

posted @ 2021-11-06 22:07 lnterpreter 阅读(202) 评论(0) 推荐(0)

线程、协程

摘要：一、多线程在url请求时，因为网络各方面原因会阻塞，多线程可以避免阻塞浪费等待时间，但不建议使用多线程无法无限制的开启多线程，无限制开启会使得CPU频繁创建和销毁线程，浪费CPU的宝贵时间第一种写法 from threading import Thread def func(): for i 阅读全文

posted @ 2021-11-06 14:29 lnterpreter 阅读(32) 评论(0) 推荐(0)

有道词典

摘要：一、分析 1、数据不在页面上，猜测进行js请求 2、对js进行查找 3、对比 `` i: dog from: AUTO to: AUTO smartresult: dict client: fanyideskweb salt: 16361336785104 sign: 07f8b61a6f0174e 阅读全文

posted @ 2021-11-06 12:37 lnterpreter 阅读(196) 评论(0) 推荐(0)

爬取梨视频

摘要：一、分析 1、浏览器打开存在视屏的链接 2、访问可以打开 3、页面源码中不存在视屏链接，所以可以推断，页面进行了二次请求 4、分析出二次请求链接 5、发现有段被加密了 https://video.pearvideo.com/mp4/adshort/20211027/1636005645152-158 阅读全文

posted @ 2021-11-04 15:06 lnterpreter 阅读(77) 评论(0) 推荐(0)

xpath

摘要：一、通过路径获取数据 from lxml import etree xml = """ <book> <id>1</id> <name>zhao</name> <price>1.23</price> <author> <nick>赵</nick> <nick>钱</nick> <nick>孙</ni 阅读全文

posted @ 2021-11-03 17:03 lnterpreter 阅读(68) 评论(0) 推荐(0)

bs4图片爬取

摘要：一、步骤 1、拿到主页面的前端源码，然后提取子页面的链接地址 2、通过href拿到子页面的内容。从子页面中找到图片的下载地址 3、下载图片二、代码 import requests from bs4 import BeautifulSoup import os headers = { "User-A 阅读全文

posted @ 2021-11-03 11:44 lnterpreter 阅读(228) 评论(0) 推荐(0)

子页面数据爬取

摘要：一、步骤定位到2021必看片从2021必看片中提取到子页面的链接地址请求子页面的链接地址。拿到我们想要的下载地址.... 二、代码 1、获取页面信息 import requests import re headers = { "User-Agent":"Mozilla/5.0 (Windows 阅读全文

posted @ 2021-11-03 01:27 lnterpreter 阅读(181) 评论(0) 推荐(0)

豆瓣top250爬取

摘要：一、电影名字爬取 import requests import re headers = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/9 阅读全文

posted @ 2021-11-02 18:14 lnterpreter 阅读(87) 评论(0) 推荐(0)

正则表达式

摘要：一、优缺点正则的优点:速度快，效率高，准确性高正则的缺点:新手上手难度有点儿高. 二、常用字符 . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线 \s 匹配任意的空白符 \d 匹配数字 \n 匹配一个换行符 \t 匹配一个制表符 ^ 匹配字符串的开始 $ 匹配字符串的结尾 \W 匹配阅读全文

posted @ 2021-11-02 15:21 lnterpreter 阅读(162) 评论(0) 推荐(0)

json处理

摘要：一、post请求方式 1、观察需要爬取的东西 2、代码 import requests a = input("输入需要翻译的单词:") url = "https://fanyi.baidu.com/sug" headers = { "User-Agent":"Mozilla/5.0 (Windows 阅读全文

posted @ 2021-11-02 13:55 lnterpreter 阅读(42) 评论(0) 推荐(0)

lnterpreter

随笔分类 - 爬虫

公告