随笔分类 -  Python网络爬虫实战

摘要:我们除了爬取文本信息,有的时候还需要爬媒体信息,比如视频图片音乐等。就拿B站来说,我的收藏夹内的视频可能随时会失效,所以把它们下载到本地是非常保险的一件事。 对于这种大量列表型的数据,可以猜测B站收藏夹的请求中,详细的收藏详细可能会是异步加载的,因为这部分数据可能比较庞大。 我们来分析一下网络请求。 阅读全文
posted @ 2019-09-28 10:38 AntzUhl 阅读(2355) 评论(0) 推荐(4)
摘要:对于一个网站的首页来说,它可能需要你进行登录,比如知乎,同一个URL下,你登录与未登录当然在右上角个人信息那里是不一样的。 (登录过) (未登录) 那么你在用爬虫爬取的时候获得的页面究竟是哪个呢? 肯定是第二个,不可能说你不用登录就可以访问到一个用户自己的主页信息,那么是什么让同一个URL在爬虫访问 阅读全文
posted @ 2019-09-20 10:28 AntzUhl 阅读(4078) 评论(0) 推荐(4)
摘要:之前两篇已经说完了如何爬取网页以及如何解析其中的数据,那么今天我们就可以开始第一次实战了。 这篇实战包含两个内容。 利用爬虫调用Api来解析照片的拍摄位置 利用爬虫爬取Bilibili视频中的弹幕 关于爬虫调用Api这一说法,其实就是通过get或者post请求携带着参数,将内容发给对方服务器,服务器 阅读全文
posted @ 2019-09-18 10:54 AntzUhl 阅读(1479) 评论(2) 推荐(1)
摘要:上一篇说完了如何爬取一个网页,以及爬取中可能遇到的几个问题。那么接下来我们就需要对已经爬取下来的网页进行解析,从中提取出我们想要的数据。 根据爬取下来的数据,我们需要写不同的解析方式,最常见的一般都是HTML数据,也就是网页的源码,还有一些可能是Json数据,Json数据是一种轻量级的数据交换格式, 阅读全文
posted @ 2019-09-17 11:38 AntzUhl 阅读(1222) 评论(0) 推荐(0)
摘要:本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行。 我们编写网络爬虫最主要的目的是爬取想要的数据还有通过爬虫去自动完成我们想在网站中做的一些事情。 从今天开始我会从基础开始讲 阅读全文
posted @ 2019-09-16 11:12 AntzUhl 阅读(6678) 评论(3) 推荐(2)