爬虫 - 随笔分类(第2页) - Tony_xiao

M3U8流视频数据爬虫

摘要：HLS技术介绍现在大部分视频客户端都采用HTTP Live Streaming，而不是直接播放MP4等视频文件（HLS，Apple为了提高流播效率开发的技术）。HLS技术的特点是将流媒体切分为若干【TS片段】（比如几秒一段），然后通过一个【M3U8列表文件】将这些TS片段批量下载供客户端播放器实现阅读全文

posted @ 2023-04-06 22:14 Tony_xiao 阅读(796) 评论(0) 推荐(0)

协程

摘要：引入：无论多线程还是多进程其实没有解决一个性能相关的问题，IO阻塞，无论是多进程还是多线程，在遇到IO阻塞时都会被操作系统强行剥夺走CPU的执行权限(使得cup执行其他操作，其他操作可能是我们程序的其他部分，也可能是其他的应用程序)，我们自己程序的执行效率因此就降低了下来。在python3.5之后阅读全文

posted @ 2023-02-17 23:10 Tony_xiao 阅读(60) 评论(0) 推荐(0)

进程+线程+队列爬取斗图网

摘要：需求：爬取斗图网数据首先我们使用线程的方式，爬取前4页数据准备工作图片链接存在页面源代码中但是，界面使用了懒加载技术，真正的url在data-original中 import requests from lxml import etree from concurrent.futures im 阅读全文

posted @ 2023-01-19 22:57 Tony_xiao 阅读(130) 评论(0) 推荐(0)

线程池处理爬虫电影票房排行榜

摘要：需求：爬取1996-2023年电影票房排行榜首先，我们先爬取一年的数据，然后通过循环，逐一爬取每一年的数据。通过测试，话费时间32秒，代码如下： import requests from lxml import etree import time #处理数据，电影排行末尾有的有空行，有的没有 d 阅读全文

posted @ 2023-01-18 23:18 Tony_xiao 阅读(169) 评论(0) 推荐(0)

requests高级之懒加载

摘要：图片懒加载：主要是应用在展示图片的网页中的一种技术，该技术是指当网页刷新后，先加载局部的几张图片数据即可，随着用户滑动滚轮，当图片被显示在浏览器的可视化区域范围的话，在动态将其图片请求加载出来即可。（图片数据是动态加载出来）。如何实现图片懒加载/动态加载？使用img标签的伪属性（指的是自定义的阅读全文

posted @ 2022-03-24 23:20 Tony_xiao 阅读(307) 评论(0) 推荐(0)

request高级之防盗链

摘要：现在很多网站启用了防盗链反爬，防止服务器上的资源被人恶意盗取。什么是防盗链呢？以图片为例，访问图片要从他的网站访问才可以，否则直接访问图片地址得不到图片练习，抓取微博图片，url：http://blog.sina.com.cn/lm/pic/，将页面中某一组系列详情页的图片进行抓取保存，比如三里阅读全文

posted @ 2022-03-23 00:00 Tony_xiao 阅读(119) 评论(0) 推荐(0)

request高级之模拟登录(动态参数)

摘要：模拟登录古诗文网 url：https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx 通过浏览器抓包，我们分析登录接口使用requests模拟登录 import requests from 阅读全文

posted @ 2022-03-21 23:58 Tony_xiao 阅读(236) 评论(0) 推荐(0)

requests高级之图形验证码

摘要：日常工作中，一般各业务接口会对登录接口有所依赖，而登录接口中会存在有要求输入图片验证码的问题，最终导致爬取数据或者接口自动化测试难以顺利展开。如何解决这种办法勒？测试：自己公司的系统，可以叫开发屏蔽或者给一个万能验证码爬虫：这种只能自行处理，下面小编将结合第三方识别工具提取并且识别验证码信息阅读全文

posted @ 2022-03-21 22:49 Tony_xiao 阅读(547) 评论(0) 推荐(0)

requests高级之代理

摘要：什么是代理用来转发请求和响应为何要使用代理？有些时候，需要对网站服务器发起高频的请求，网站的服务器会检测到这样的异常现象，则会讲请求对应机器的ip地址加入黑名单，则该ip再次发起的请求，网站服务器就不在受理，则我们就无法再次爬取该网站的数据；使用代理后，网站服务器接收到的请求，最终是由代理服阅读全文

posted @ 2022-03-20 13:10 Tony_xiao 阅读(523) 评论(0) 推荐(0)

requests高级之cookie

摘要：什么是cookie? cookie的本质就是一组数据（键值对的形式存在）是由服务器创建，返回给客户端，最终会保存在客户端浏览器中。如果客户端保存了cookie，则下次再次访问该服务器，就会携带cookie进行网络访问典型案例：网站的免密登录需求：爬取雪球网咨询数据通过浏览器抓包工具分析，页阅读全文

posted @ 2022-03-20 10:29 Tony_xiao 阅读(556) 评论(0) 推荐(0)

数据解析之xpath

摘要：环境安装、导入模块 pip install lxml from lxml import etree etree.HTML(page_text) #HTML()专门用来解析网络请求到的页面源码数据数据解析 a：调用etree对象的xpath方法结合不同形式的xpath表达式进行标签定位和数据提取 b 阅读全文

posted @ 2022-03-19 23:09 Tony_xiao 阅读(122) 评论(0) 推荐(0)

数据解析之bs4

摘要：环境安装，导入模块 pip install bs4 pip install lxml #需要用到lxml解析 from bs4 import Beautifulsoup 实例化一个BeautifulSoup的对象，然后把即将被解析的页面源码数据加载到该对象中本地文件：BeautifulSoup(f 阅读全文

posted @ 2022-03-19 22:59 Tony_xiao 阅读(95) 评论(0) 推荐(0)

requests基础综合实战

摘要：需求：爬取药监总局网址前5页的企业名称、许可证编号、法人分析： 1、我们需要的数据，在企业详情页面，都是可以获取到。先进入到任意一家企业的详情页中，查看企业的详情数据是否为动态加载数据？基于抓包工具进行局部搜索(network中路径有浏览器地址栏中的一致的数据包中进行局部搜索) 搜索的到：不是阅读全文

posted @ 2022-03-19 22:25 Tony_xiao 阅读(49) 评论(0) 推荐(0)

requests基础操作

摘要：1、基本介绍 requests就是爬虫中一个基于网络请求的模块。作用：模拟浏览器上网的。 2、环境安装：pip install requests 3、编码流程指定URL(相当于打开浏览器输入网址) 发起请求(相当于按下回车) 获取响应数据(从指定url中爬取到数据) 持久化存储 4、例如我们做一阅读全文

posted @ 2022-03-19 21:11 Tony_xiao 阅读(225) 评论(0) 推荐(0)

爬虫简介

摘要：1、什么是爬虫？ -就是编写程序，模拟浏览器上网，让其去互联网中抓取数据的过程模拟：浏览器本身就是一个纯天然的爬虫工具，爬虫相关的模块都是基于浏览器为基础开发出来的。注意：日后只要是你的爬虫程序没有爬取到你想要的数据，只有一个原因：就是你的爬虫程序模拟的力度不够！抓取：抓取网页数据分两种阅读全文

posted @ 2022-03-19 20:20 Tony_xiao 阅读(198) 评论(0) 推荐(0)

Tony_xiao

随笔分类 - 爬虫

公告