爬虫实战系列 - 随笔分类 - Mrterrific

（五）JS逆向——问财同花顺

摘要：爬取问财网的今日涨停信息载荷多试几次可以发现除了页码等信息，都是固定值，因此变化一定是在请求头可以发现变化的就是HeXin-V的值，并且在cookie中也有对应的键值对，所以下一步就是找到该值生成的位置。因为Cookie中有这个值，所以可以通过Cookie Hook的方式来定位 (functi 阅读全文

posted @ 2024-07-17 17:47 Mrterrific 阅读(1217) 评论(0) 推荐(0)

（四）JS逆向——中国观鸟网

摘要：爬取观鸟网的信息有sign值，timestamp和requestid，要看这些值是怎么生成的载荷有加密的数据返回值也经过加密搜索requestid，找到了eval加密的代码，通过解密，就能找到生成这些值的代码段代码格式化后，找到了这几个值的生成位置 requestid的生成是随机值，tim 阅读全文

posted @ 2024-07-05 14:26 Mrterrific 阅读(336) 评论(0) 推荐(0)

（三）JS逆向——爬取易车网

摘要：爬取易车网的车辆配置信息所以主要就是确定这几个是怎么生成的搜索x-sign值的位置，打断点，找到构建x-sign的函数注意，一定要看清是否是正确的url，x-timestamp明显是时间戳进入这个函数 x-sign值，是对这个字符串做md5，这个字符串由三部分构成，参数、时间戳、和一个固定字阅读全文

posted @ 2024-07-03 15:52 Mrterrific 阅读(206) 评论(0) 推荐(0)

（二）JS逆向——爬取网易云音乐

摘要：本篇文章主要来爬取网易云音乐的音频文件。进入一首歌点击播放，从该请求中找到了音频文件的地址查看载荷情况，所以现在问题的重点就是找到载荷是怎么构建的通过查看该请求的启动器，一层层向上找参数是在哪个地方构建的打断点定位到第一个位置，发现参数已经构建完成，所以通过调用堆栈继续向前找参数构建的位置阅读全文

posted @ 2024-06-27 16:34 Mrterrific 阅读(740) 评论(0) 推荐(0)

（一）JS逆向——爬取有道翻译

摘要：分析发送请求的过程该动态请求返回的数据是响应数据，想要的结果就在其中，但明显是加密过的，所以下一步要模拟发送请求，并找出是如何加密的。看一下请求的载荷，多发几次请求，发现只有这两个参数是变化的，所以下一步要找到这两个参数是如何构建的，才能模拟发出请求。在源代码中搜索，找到发送请求的位置，搜索内阅读全文

posted @ 2024-06-26 10:22 Mrterrific 阅读(508) 评论(0) 推荐(0)

(十一)爬取m3u8加密视频

摘要：import random import os import re import requests import asyncio import aiohttp import time from lxml import etree from Crypto.Cipher import AES from 阅读全文

posted @ 2024-06-11 15:55 Mrterrific 阅读(288) 评论(0) 推荐(0)

(十)selenium实现微博高级搜索信息爬取

摘要：1.selenium模拟登陆 2.定位进入高级搜索页面 3.对高级搜索进行定位，设置。 4.代码实现 import time from selenium import webdriver from lxml import etree from selenium.webdriver import Ch 阅读全文

posted @ 2020-07-26 22:39 Mrterrific 阅读(1427) 评论(0) 推荐(0)

(九)selenium实现12306模拟登录

摘要：登陆的唯一困难在于验证码的识别，此处使用第三方平台超级鹰进行验证码识别。 from selenium import webdriver import time from PIL import Image from selenium.webdriver import ActionChains impo 阅读全文

posted @ 2020-07-26 22:29 Mrterrific 阅读(359) 评论(0) 推荐(0)

(八)分布式爬取58同城二手房信息

摘要：- 实现流程 - 创建一个工程 - 创建一个基于CrawlSpider的爬虫文件 - 修改当前的爬虫文件： - 导包：from scrapy_redis.spiders import RedisCrawlSpider - 将start_urls和allowed_domains进行注释 - 添加一个新阅读全文

posted @ 2020-07-02 11:07 Mrterrific 阅读(627) 评论(0) 推荐(0)

(六)基于Scrapy爬取网易新闻中的新闻数据

摘要：需求：爬取这国内、国际、军事、航空、无人机模块下的新闻信息 1.找到这五个板块对应的url 2.进入每个模块请求新闻信息我们可以明显发现‘’加载中‘’，因此我们判断新闻数据是动态加载出来的。 3.拿到新闻的标题和详情url 4.请求详情页获取新闻内容 5.思路：思路已经很清晰了，请求五大板块拿到阅读全文

posted @ 2020-07-02 10:50 Mrterrific 阅读(2145) 评论(0) 推荐(0)

(七)多线程爬取牛客网并生成词云图

摘要：异步爬取牛客网帖子信息并作出高频词汇词云图流程分析： 1.打开对应的url='https://www.nowcoder.com/discuss?type=0&order=0' 2.获取每一条帖子的通用的标签位置不难看出每一条帖子都在li标签下，因此我们应该首先定位到ul标签下的所有li标签，再对阅读全文

posted @ 2020-07-02 10:19 Mrterrific 阅读(538) 评论(0) 推荐(0)

(五)基于selenium实现12306模拟登陆

摘要：这里介绍一款强大验证码识别平台：超级鹰 - 超级鹰：http://www.chaojiying.com/about.html - 注册：普通用户 - 登录：普通用户 - 题分查询：充值 - 创建一个软件（id） - 下载示例代码 1. 打开url 一打开是扫码登陆的页面，这显然不是我们想要的，因此我阅读全文

posted @ 2020-06-30 19:50 Mrterrific 阅读(269) 评论(0) 推荐(0)

(四)基于multiprocessing.dummy线程池爬取梨视频的视频信息

摘要：功能：爬取梨视频科技栏最热的几个视频。 1. 找到视频对应的通用标签可以看出关于视频的信息都存放在li标签中 2. 拿到视频的名称以及对应的url 3.进入Video的url，找到视频信息的地址你会发现没有这个视频的url，那么说明这个视频可能是动态加载出来的。 4. 打开抓包工具，找到视频对应阅读全文

posted @ 2020-06-30 18:38 Mrterrific 阅读(276) 评论(1) 推荐(0)

(三)xpath爬取4K高清美女壁纸

摘要：功能：通过xpath爬取彼岸图网的高清美女壁纸 url = 'http://pic.netbian.com/4kmeinv/' 1. 通过url请求整张页面的数据 2.通过页面的标签定位图片所在的位置 3.找到所有图片的通用的标签向图片标签的父级查找，可以发现每一张图片都在ul下的li标签下。 4 阅读全文

posted @ 2020-06-30 16:41 Mrterrific 阅读(500) 评论(0) 推荐(0)

(二)requests-爬取国家药监局生产许可证数据

摘要：首先访问这个页面 url = 'http://125.35.6.84:81/xk/' 我们的目标是抓取这里的每一个企业的详情页数据，但是可以发现这里只有企业的简介信息，所以这就意味着我们要发送两次get请求。在写代码之前，我们可以大概看一下我们想要的数据大概在什么位置。 1. 我们打开一个公司的详阅读全文

posted @ 2020-06-30 15:44 Mrterrific 阅读(2021) 评论(0) 推荐(0)

(一)requests-实战小练习

摘要：1.需求：爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据　（此处以抓取科幻电影分类的信息为例） import requests import json url = 'https://movie.douban.com/j/new_search_subject 阅读全文

posted @ 2020-06-30 15:08 Mrterrific 阅读(292) 评论(0) 推荐(0)

Mrterrific

随笔分类 - 爬虫实战系列

公告