文章分类 -  爬虫

一些笔记
摘要:cookie与session 用户登录,请求cookie 带着cookie去请求网页,得到用户专属页面。 使用session进行请求:session可以认为是一连串请求,在这个过程中cookie不会丢失;也可以认为session是记录用户的一系列操作。 一、获取 爬虫思路 确定目标网站(https: 阅读全文
posted @ 2022-11-14 21:07 钱有学 阅读(23) 评论(0) 推荐(0)
摘要:持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第6天,点击查看活动详情 文章概览 Html语法规则 Bs4爬虫示例 一、Html语法规则 html常见标签格式:<标签 属性="属性值">被标记的内容</标签> 比如常见的标题:<h1></h1>是大标题,其中也可以添加属性比如 阅读全文
posted @ 2022-11-14 21:06 钱有学 阅读(47) 评论(0) 推荐(0)
摘要:文章概览 爬虫思路 指定字符集 定位到目标位置提取信息 一、爬虫思路 拿到一个网页,首先要分析网页的组成部分以及我们需要的数据是服务器渲染还是客户端二次请求渲染的,然后根据chorme的抓包工具编写爬虫。 大致思路: 确定目标地址(https://www.dytt89.com/) 明确爬虫内容(定位 阅读全文
posted @ 2022-11-14 21:06 钱有学 阅读(109) 评论(0) 推荐(0)
摘要:文章概览 正则匹配 浅爬豆瓣电影 一、正则匹配 正则表达式就是字符串匹配的模式,常用来检查某段字符串是否含有某个、某种子串,将满足条件的子串替换或者取出来。 正则表达式从左到右,按照优先级匹配,其中正则表达式.*?可以解决大部分匹配,是最常用的正则匹配,它截取满足条件的最小部分。 示例:提取满足正则 阅读全文
posted @ 2022-11-14 21:05 钱有学 阅读(23) 评论(0) 推荐(0)
摘要:文章概览 数据解析的三种方式 re模块的使用 爬虫可大致分为通用爬虫、聚焦爬虫、增量式爬虫;其中聚焦爬虫是爬取页面中指定的内容,提取的过程成为数据解析。 一、数据解析的三种常见方式 从网页获取到源代码后,我们想要拿到特定的数据该使用什么方法呢? 1、re解析:这种方式最快。 2、bs4解析:pyth 阅读全文
posted @ 2022-11-14 21:04 钱有学 阅读(19) 评论(0) 推荐(0)
摘要:文章概览 Requests入门 数据解析 一、Requests入门 安装requests 在pycharm的命令控制行中输入如下命令: pip install requests 如果下载太慢的话可以选择镜像。(搜索pip清华源或者阿里源) 这里选择临时使用 pip install -i https: 阅读全文
posted @ 2022-11-14 21:03 钱有学 阅读(23) 评论(0) 推荐(0)
摘要:文章概览 第一个爬虫 Web请求过程 HTTP协议 一、第一个爬虫 如何拿到一个网页呢?下面的几行代码将模拟浏览器客户端向服务器发送请求,从而拿到我们想要的网页。 from urllib.request import urlopen url = "https://www.gushiwen.cn/" 阅读全文
posted @ 2022-11-14 21:02 钱有学 阅读(19) 评论(0) 推荐(0)
摘要:分析目标网站 1)首先确定要爬取的评论是在网页源代码中还是在其他包中。 这里看到“查看网页源代码”、“查看框架的源代码”,说明当前网站是由两个html文件嵌套出来的,两套html代码中都没有我们想要的数据,那么开始对包进行分析。 2)选择XHR,发送请求。 挨个找下去发现这个包里面有comments 阅读全文
posted @ 2022-10-23 23:07 钱有学 阅读(8) 评论(0) 推荐(0)
摘要:分析 1)目标网站 要抓取页面中的视频首先要确认视频是否在页面源代码中。 2)打开检查,找到视频的位置,发现视频放在video标签里,但是拿到“标签在网页源代码里检索不到,说明视频的标签是后期通过js脚本生成出来的,是二次加载出来的。 3)选择XHR,筛选出js包 找到.mp4的url,对比该连接与 阅读全文
posted @ 2022-10-23 13:51 钱有学 阅读(12) 评论(0) 推荐(0)