爬虫 - 文章分类 - 钱有学

处理cookie|py06

摘要：cookie与session 用户登录，请求cookie 带着cookie去请求网页，得到用户专属页面。使用session进行请求：session可以认为是一连串请求，在这个过程中cookie不会丢失；也可以认为session是记录用户的一系列操作。一、获取爬虫思路确定目标网站（https: 阅读全文

posted @ 2022-11-14 21:07 钱有学阅读(23) 评论(0) 推荐(0)

bs4解析规则|py05

摘要：持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第6天，点击查看活动详情文章概览 Html语法规则 Bs4爬虫示例一、Html语法规则 html常见标签格式：<标签属性="属性值">被标记的内容</标签> 比如常见的标题：<h1></h1>是大标题，其中也可以添加属性比如阅读全文

posted @ 2022-11-14 21:06 钱有学阅读(47) 评论(0) 推荐(0)

爬虫实例电影天堂|py04

摘要：文章概览爬虫思路指定字符集定位到目标位置提取信息一、爬虫思路拿到一个网页，首先要分析网页的组成部分以及我们需要的数据是服务器渲染还是客户端二次请求渲染的，然后根据chorme的抓包工具编写爬虫。大致思路：确定目标地址（https://www.dytt89.com/）明确爬虫内容（定位阅读全文

posted @ 2022-11-14 21:06 钱有学阅读(109) 评论(0) 推荐(0)

re模块|py03

摘要：文章概览正则匹配浅爬豆瓣电影一、正则匹配正则表达式就是字符串匹配的模式，常用来检查某段字符串是否含有某个、某种子串，将满足条件的子串替换或者取出来。正则表达式从左到右，按照优先级匹配，其中正则表达式.*?可以解决大部分匹配，是最常用的正则匹配，它截取满足条件的最小部分。示例：提取满足正则阅读全文

posted @ 2022-11-14 21:05 钱有学阅读(23) 评论(0) 推荐(0)

正则表达式|py02

摘要：文章概览数据解析的三种方式 re模块的使用爬虫可大致分为通用爬虫、聚焦爬虫、增量式爬虫；其中聚焦爬虫是爬取页面中指定的内容，提取的过程成为数据解析。一、数据解析的三种常见方式从网页获取到源代码后，我们想要拿到特定的数据该使用什么方法呢？ 1、re解析：这种方式最快。 2、bs4解析：pyth 阅读全文

posted @ 2022-11-14 21:04 钱有学阅读(19) 评论(0) 推荐(0)

Request|py01

摘要：文章概览 Requests入门数据解析一、Requests入门安装requests 在pycharm的命令控制行中输入如下命令： pip install requests 如果下载太慢的话可以选择镜像。（搜索pip清华源或者阿里源）这里选择临时使用 pip install -i https: 阅读全文

posted @ 2022-11-14 21:03 钱有学阅读(23) 评论(0) 推荐(0)

py00

摘要：文章概览第一个爬虫 Web请求过程 HTTP协议一、第一个爬虫如何拿到一个网页呢？下面的几行代码将模拟浏览器客户端向服务器发送请求，从而拿到我们想要的网页。 from urllib.request import urlopen url = "https://www.gushiwen.cn/" 阅读全文

posted @ 2022-11-14 21:02 钱有学阅读(19) 评论(0) 推荐(0)

网易云

摘要：分析目标网站 1）首先确定要爬取的评论是在网页源代码中还是在其他包中。这里看到“查看网页源代码”、“查看框架的源代码”，说明当前网站是由两个html文件嵌套出来的，两套html代码中都没有我们想要的数据，那么开始对包进行分析。 2）选择XHR，发送请求。挨个找下去发现这个包里面有comments 阅读全文

posted @ 2022-10-23 23:07 钱有学阅读(8) 评论(0) 推荐(0)

处理梨视频|Python笔记

摘要：分析 1）目标网站要抓取页面中的视频首先要确认视频是否在页面源代码中。 2）打开检查，找到视频的位置，发现视频放在video标签里，但是拿到“标签在网页源代码里检索不到，说明视频的标签是后期通过js脚本生成出来的，是二次加载出来的。 3）选择XHR，筛选出js包找到.mp4的url，对比该连接与阅读全文

posted @ 2022-10-23 13:51 钱有学阅读(12) 评论(0) 推荐(0)

文章分类 - 爬虫

公告