随笔分类 -  爬虫

摘要:一、站点分析 MTime 时光网是一个电影媒体与电商服务平台,而这次做的模拟登录则是依靠其手机端站点,站点地址为:https://m.mtime.cn/#。切换到登录页面,再分别输入账号和错误的密码,点击登录,登录失败,截图如下: 打开开发者工具, 选择“Network”,切换到“XHR”选项,找到 阅读全文
posted @ 2020-07-05 17:53 onionono 阅读(2043) 评论(1) 推荐(2)
摘要:一、站点分析 小牛在线的登录入口地址为:https://www.xiaoniu88.com/user/login。 用户登录时除了需要输入用户名和密码,还要输一个验证码。我们可以先任意输入一个用户名、密码以及验证码,打开开发者工具,点击登录并登录失败,在开发者工具中切换到 Network 页面,找到 阅读全文
posted @ 2020-06-29 10:33 onionono 阅读(1808) 评论(1) 推荐(1)
摘要:一、雪碧图 1.前言 我们都知道,HTTP 协议即超文本传输协议,是 Web 应用的基础,HTTP 协议又是基于 TCP 协议的,而 TCP 连接的建立是需要时间和资源的。当网页加载时,会需要下载图片资源,如果有非常多的小图片,就需要建立很多 TCP 连接。 但勤劳勇敢的前端工作者们,想到把所有小图 阅读全文
posted @ 2020-05-29 09:26 onionono 阅读(1647) 评论(0) 推荐(4)
摘要:一、前言简介 在现在各个网站使用的反爬措施中,使用 JavaScript 加密算是很常用的了,通常会使用 JavaScript 加密某个参数,例如 token 或者 sign。在这次的例子中,就采取了这种措施来反爬,使用 JavaScript 加密了一个参数 antitoken,而本篇博客要写的就是 阅读全文
posted @ 2020-04-10 14:48 onionono 阅读(1569) 评论(3) 推荐(0)
摘要:一、前言简介 在前面已经写过关于 JS 反调试的博客了,地址为:https://www.cnblogs.com/TM0831/p/12154815.html。但这次碰到的网站就不一样了,这个网站并不是通过不断调试消耗内存以反调试的,而是直接将页面替换修改掉,让人无法调试页面。 二、网页分析 本次爬取 阅读全文
posted @ 2020-02-27 16:08 onionono 阅读(1283) 评论(2) 推荐(2)
摘要:一、前言 本文是一次破解某网站 JS 加密数据的记录,网址为: https://www.qimingpian.cn/finosda/event/einvestment 要获取的是本页面上的投资事件信息,首先可以确定的是数据是通过 AJax 来传输的,并非直接写在网页源码中的。 二、步骤 1.抓包 打 阅读全文
posted @ 2020-01-16 09:39 onionono 阅读(1662) 评论(0) 推荐(0)
摘要:一、前言 在我们爬取某些网站的时候,会想要打开 DevTools 查看元素或者抓包分析,但按下 F12 的时候,却出现了下面这一幕: 此时网页暂停加载,自动跳转到 Source 页面并打开了一个 JS 文件,在右侧可以看到 “Debugger paused”,在 Call Stack 中还有一些调用 阅读全文
posted @ 2020-01-08 09:10 onionono 阅读(3463) 评论(3) 推荐(4)
摘要:一、前言简述 因为最近微信读书出了网页版,加上自己也在闲暇的时候看了两本书,不禁好奇什么样的书更受欢迎,哪位作者又更受读者喜欢呢?话不多说,爬一下就能有个了解了。 二、页面分析 首先打开微信读书:https://weread.qq.com/,往下拉之后可以看到有榜单推荐,而且显示总共有25个榜单,有 阅读全文
posted @ 2019-12-05 09:34 onionono 阅读(1553) 评论(3) 推荐(5)
摘要:一、写在前面 其实早就该写这一篇博客了,为什么一直没有写呢?还不是因为忙不过来(实际上只是因为太懒了)。不过好了,现在终于要开始写这一篇博客了。在看这篇博客之前,可能需要你对 Go 这门语言有些基本的了解,比如基础语法之类的。话不多说,进入正题。 二、Go 环境配置 1.安装配置 在学习一门语言时, 阅读全文
posted @ 2019-11-16 17:59 onionono 阅读(1034) 评论(2) 推荐(1)
摘要:一、写在前面 直播行业已经火热几年了,几个大平台也有了各自独特的“弹幕文化”,不过现在很多平台直播比赛时的弹幕都基本没法看的,主要是因为网络上的喷子还是挺多的,尤其是在观看比赛的时候,很多弹幕不是喷选手就是喷战队,如果看了这种弹幕,真是让比赛减分不少。 但和别的平台比起来,B 站的弹幕会好一些。正好 阅读全文
posted @ 2019-10-20 10:31 onionono 阅读(2077) 评论(10) 推荐(7)
摘要:一、写在前面 在上一篇博客中提到过对于网络爬虫这种包含大量网络请求的任务,是可以用Celery来做到加速爬取的,那么,这一篇博客就要具体说一下怎么用Celery来对我们的爬虫进行一个加速! 二、知识补充 1.class celery.group group这个类表示创建一组要并行执行的任务,不过一组 阅读全文
posted @ 2019-08-26 10:51 onionono 阅读(1712) 评论(1) 推荐(1)
摘要:一、写在前面 之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验。所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对IP的检测。本文介绍的是利用Redis数据库实现的分布式爬虫,Redis是一种常用的菲关系型数据库,常 阅读全文
posted @ 2019-08-19 09:06 onionono 阅读(806) 评论(0) 推荐(0)
摘要:一、写在前面 我写爬虫已经写了一段时间了,对于那些使用GET请求或者POST请求的网页,爬取的时候都还算得心应手。不过最近遇到了一个有趣的网站,虽然爬取的难度不大,不过因为表单提交的存在,所以一开始还是有点摸不着头脑。至于最后怎么解决的,请慢慢往下看。 二、页面分析 这次爬取的网站是:https:/ 阅读全文
posted @ 2019-07-31 11:20 onionono 阅读(3493) 评论(1) 推荐(1)
摘要:一、写在前面 我在以前写过一次12306网站的爬虫,当时实现了模拟登录和查询车票,但是感觉还不太够,所以对之前的代码加以修改,还实现了一个订购车票的功能。 二、主要思路 在使用Selenium做模拟登录12306网站的时候,需要将登录成功后的Cookie保存下来,这个Cookie在后面是必需的。然后 阅读全文
posted @ 2019-06-08 09:29 onionono 阅读(2564) 评论(3) 推荐(0)
摘要:一、写在前面 最近复仇者联盟4正在热映中,很多人都去电影院观看了电影,那么对于这部电影,看过的人都是怎么评价的呢?这时候爬虫就可以派上用场了! 二、主要思路 首先打开豆瓣电影,然后进入复仇者联盟4的详情页面:https://movie.douban.com/subject/26100958/,下拉页 阅读全文
posted @ 2019-04-27 11:50 onionono 阅读(1213) 评论(0) 推荐(2)
摘要:一、写在前面 首先呢,由于之前重装系统,又要重新配置环境,然后还有一些别的事,导致我一直没有写爬虫了,不过现在又可以继续写了。 然后我这次说的模拟登录新浪微博呢,不是使用Selenium模拟浏览器操作,毕竟Selenium的效率是真的有些低,所以我选择用Python发送请求实现模拟登录,整个过程还算 阅读全文
posted @ 2019-03-29 09:22 onionono 阅读(1878) 评论(3) 推荐(2)
摘要:一、写在前面 当你看着你的博客的阅读量慢慢增加的时候,内心不禁有了些小激动,但是不得不吐槽一下--博客园并不会显示你的博客的总阅读量是多少。而这一篇博客就将教你怎么利用队列这种结构来编写爬虫,最终获取你的博客的总阅读量。 二、必备知识 队列是常用数据结构之一,在Python3中要用queue这个模块 阅读全文
posted @ 2019-03-11 14:38 onionono 阅读(1892) 评论(0) 推荐(0)
摘要:上一篇博客的末尾说到全网代理IP的端口号是经过加密混淆的,而这一篇博客就将告诉你如何破解!如果觉得有用的话,不妨点个推荐哦~ 一、全网代理IP的JS混淆 首先进入全网代理IP,打开开发者工具,点击查看端口号,看起来貌似没有什么问题: 如果你已经爬取过这个网站的代理,你就会知道事情并非这么简单。如果没 阅读全文
posted @ 2019-03-03 10:09 onionono 阅读(1947) 评论(1) 推荐(3)
摘要:这一篇博客,还是接着说那些常见的反爬虫措施以及我们的解决办法。同样的,如果对你有帮助的话,麻烦点一下推荐啦。 一、防盗链 这次我遇到的防盗链,除了前面说的Referer防盗链,还有Cookie防盗链和时间戳防盗链。Cookie防盗链常见于论坛、社区。当访客请求一个资源的时候,他会检查这个访客的Coo 阅读全文
posted @ 2019-03-01 08:41 onionono 阅读(2856) 评论(0) 推荐(2)
摘要:这一篇博客,是关于反反爬虫的,我会分享一些我遇到的反爬虫的措施,并且会分享我自己的解决办法。如果能对你有什么帮助的话,麻烦点一下推荐啦。 一、UserAgent UserAgent中文名为用户代理,它使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本等信息。对于一些网站来说,它会 阅读全文
posted @ 2019-02-26 08:53 onionono 阅读(8722) 评论(5) 推荐(6)