摘要:
python爬虫之防盗链处理 B站视频教程 基本用法 headers = { 'referer': referer_url } 梨视频视频下载 在视频播放网页打开播放的请求发现请求头中有referer防盗链 如果我们直接发起请求会返回以下错误结果: 所以需要在headers中设置referer 完整 阅读全文
posted @ 2022-02-19 20:30
淞的博客
阅读(428)
评论(0)
推荐(0)
摘要:
异步爬虫之多进程和多线程 基本概念 目的:在爬虫中使用异步实现高性能的数据爬取操作 线程和进程的区别 线程具有许多传统进程所具有的特征,故又称为轻型进程(Light—Weight Process)或进程元;而把传统的进程称为重型进程(Heavy—Weight Process),它相当于只有一个线程的 阅读全文
posted @ 2022-02-19 20:28
淞的博客
阅读(553)
评论(0)
推荐(0)
摘要:
python爬虫之代理IP 免费代理网站:快代理 最好使用最新的免费代理,免费的很多都不能用 from fake_useragent import UserAgent import requests url = 'http://mip.chinaz.com/' proxies = { 'http': 阅读全文
posted @ 2022-02-19 20:27
淞的博客
阅读(276)
评论(0)
推荐(0)
摘要:
Xpath解析 xpath解析原理 实例化一个etree对象,且需要将被解析的页面的源码数据加载到该对象中 调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获 环境的安装 pip install lxml 如何实例化一个etree对象 from lxml impor 阅读全文
posted @ 2022-02-19 20:24
淞的博客
阅读(622)
评论(0)
推荐(0)
摘要:
requests模块使用 requests介绍 python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高, 作用是模拟浏览器发请求。 requests模块的编码流程 指定URL 发送请求 获取相应数据 持久化存储 环境安装 pip install requests 实战编码 需求 阅读全文
posted @ 2022-02-19 20:20
淞的博客
阅读(140)
评论(0)
推荐(0)
摘要:
古诗文网模拟登录 古诗文网官网地址:古诗文网-古诗文经典传承 (gushiwen.cn) 环境安装 requests库 pip install requests [post cid="137" /] 验证码识别库ddddocr pip install ddddocr 基础使用方法: import d 阅读全文
posted @ 2022-02-19 20:19
淞的博客
阅读(530)
评论(0)
推荐(0)

浙公网安备 33010602011771号