随笔分类 - 爬虫
爬虫学习笔记
摘要:HLS技术介绍 现在大部分视频客户端都采用HTTP Live Streaming,而不是直接播放MP4等视频文件(HLS,Apple为了提高流播效率开发的技术)。HLS技术的特点是将流媒体切分为若干【TS片段】(比如几秒一段),然后通过一个【M3U8列表文件】将这些TS片段批量下载供客户端播放器实现
阅读全文
摘要:引入:无论多线程还是多进程其实没有解决一个性能相关的问题,IO阻塞,无论是多进程还是多线程,在遇到IO阻塞时都会被操作系统强行剥夺走CPU的执行权限(使得cup执行其他操作,其他操作可能是我们程序的其他部分,也可能是其他的应用程序),我们自己程序的执行效率因此就降低了下来。 在python3.5之后
阅读全文
摘要:需求:爬取斗图网数据 首先我们使用线程的方式,爬取前4页数据 准备工作 图片链接存在页面源代码中 但是,界面使用了懒加载技术,真正的url在data-original中 import requests from lxml import etree from concurrent.futures im
阅读全文
摘要:需求:爬取1996-2023年电影票房排行榜 首先,我们先爬取一年的数据,然后通过循环,逐一爬取每一年的数据。通过测试,话费时间32秒,代码如下: import requests from lxml import etree import time #处理数据,电影排行末尾 有的有空行,有的没有 d
阅读全文
摘要:图片懒加载: 主要是应用在展示图片的网页中的一种技术,该技术是指当网页刷新后,先加载局部的几张图片数据即可,随着用户滑动滚轮,当图片被显示在浏览器的可视化区域范围的话,在动态将其图片请求加载出来即可。(图片数据是动态加载出来)。 如何实现图片懒加载/动态加载? 使用img标签的伪属性(指的是自定义的
阅读全文
摘要:现在很多网站启用了防盗链反爬,防止服务器上的资源被人恶意盗取。什么是防盗链呢? 以图片为例,访问图片要从他的网站访问才可以,否则直接访问图片地址得不到图片 练习,抓取微博图片,url:http://blog.sina.com.cn/lm/pic/,将页面中某一组系列详情页的图片进行抓取保存,比如三里
阅读全文
摘要:模拟登录古诗文网 url:https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx 通过浏览器抓包,我们分析登录接口 使用requests模拟登录 import requests from
阅读全文
摘要:日常工作中,一般各业务接口会对登录接口有所依赖,而登录接口中会存在有要求输入图片验证码的问题,最终导致爬取数据或者接口自动化测试难以顺利展开。 如何解决这种办法勒? 测试:自己公司的系统,可以叫开发屏蔽或者给一个万能验证码 爬虫:这种只能自行处理,下面小编将结合第三方识别工具提取并且识别验证码信息
阅读全文
摘要:什么是代理 用来转发请求和响应 为何要使用代理? 有些时候,需要对网站服务器发起高频的请求,网站的服务器会检测到这样的异常现象,则会讲请求对应机器的ip地址加入黑名单,则该ip再次发起的请求,网站服务器就不在受理,则我们就无法再次爬取该网站的数据; 使用代理后,网站服务器接收到的请求,最终是由代理服
阅读全文
摘要:什么是cookie? cookie的本质就是一组数据(键值对的形式存在) 是由服务器创建,返回给客户端,最终会保存在客户端浏览器中。 如果客户端保存了cookie,则下次再次访问该服务器,就会携带cookie进行网络访问 典型案例:网站的免密登录 需求:爬取雪球网咨询数据 通过浏览器抓包工具分析,页
阅读全文
摘要:环境安装、导入模块 pip install lxml from lxml import etree etree.HTML(page_text) #HTML()专门用来解析网络请求到的页面源码数据 数据解析 a:调用etree对象的xpath方法结合不同形式的xpath表达式进行标签定位和数据提取 b
阅读全文
摘要:环境安装,导入模块 pip install bs4 pip install lxml #需要用到lxml解析 from bs4 import Beautifulsoup 实例化一个BeautifulSoup的对象,然后把即将被解析的页面源码数据加载到该对象中 本地文件:BeautifulSoup(f
阅读全文
摘要:需求:爬取药监总局网址前5页的企业名称、许可证编号、法人 分析: 1、我们需要的数据,在企业详情页面,都是可以获取到。 先进入到任意一家企业的详情页中,查看企业的详情数据是否为动态加载数据? 基于抓包工具进行局部搜索(network中路径有浏览器地址栏中的一致的数据包中进行局部搜索) 搜索的到:不是
阅读全文
摘要:1、基本介绍 requests就是爬虫中一个基于网络请求的模块。 作用:模拟浏览器上网的。 2、环境安装:pip install requests 3、编码流程 指定URL(相当于打开浏览器输入网址) 发起请求(相当于按下回车) 获取响应数据(从指定url中爬取到数据) 持久化存储 4、例如我们做一
阅读全文
摘要:1、什么是爬虫? -就是编写程序,模拟浏览器上网,让其去互联网中抓取数据的过程 模拟: 浏览器本身就是一个纯天然的爬虫工具,爬虫相关的模块都是基于浏览器为基础开发出来的。 注意:日后只要是你的爬虫程序没有爬取到你想要的数据,只有一个原因: 就是你的爬虫程序模拟的力度不够! 抓取: 抓取网页数据分两种
阅读全文

浙公网安备 33010602011771号