摘要: 众所周知,动态网站通常使用例如ajax等异步加载技术来加载网页,相比于静态网页,动态网页通常包含多个请求,且数据往往并不存在于网页源码中,我们便需要通过抓包来寻找数据所在的请求并分析,编写响应的爬虫代码。动态网站的爬取包含下以下三个步骤:抓包,分析参数,提取数据。(以下使用爬取b站评论来作为讲解案例 阅读全文
posted @ 2021-01-16 23:35 Epitaph 阅读(1951) 评论(0) 推荐(0) 编辑
摘要: 最近无聊分析了一下b站的视频流协议,简单分享下爬取的流程。 首先先要找到视频对应的aid和cid,aid就相当于av号,而av号对应网页下的每一个视频都有对应的cid,普通视频就是分p,番剧就是集数,aid和cid在网页的源代码里面都能找到,用正则匹配aid和cid这两个关键字就能匹配到,如下代码: 阅读全文
posted @ 2021-01-03 18:07 Epitaph 阅读(2278) 评论(0) 推荐(0) 编辑
摘要: 前言 最近学习了一下有关tcp协议和socket有关的知识,看到许多socket实战都喜欢教如何做一个聊天程序,于是想着试试能不能不看教程自己写一个。当然我没太多时间做一个像qq一样的ui界面,所以做了个命令行程序。 下面是我写好的代码: server代码 import socket import 阅读全文
posted @ 2020-08-30 01:44 Epitaph 阅读(750) 评论(1) 推荐(0) 编辑