随笔分类 - 爬虫
摘要:当我们使用resquests.get()时,返回的时response的对象,他包含服务器返回的所有信息,也包含请求的request的信息。 首先: response对象的属性有以下几个, r.status_code是http请求的返回状态,200表示连接成功,404表示连接失败,这时候应该抛出异常,
阅读全文
摘要:今天我们要爬去的网站是http://comic.sfacg.com/。漫画网站一般都是通过JavaScript和AJAX来动态加载漫画的,这也就意味着想通过原来爬取静态网站的方式去下载漫画是不可能的,这次我们就来用Selenium&PhantomJS来下载漫画。 分析:我们通过Selenium模拟打
阅读全文
摘要:前面已经爬取了代理,今天我们使用Selenium&PhantomJS的方式爬取快代理 :快代理 - 高速http代理ip每天更新。 首先分析一下快代理,如下 使用谷歌浏览器,检查,发现每个代理信息都在tr里面,每个tr里面包含多个td,就是IP的信息。 这个结构我们可以通过多种方法抓取,例如bs4、
阅读全文
摘要:Seleniumd介绍 在写Python爬虫的时候,最麻烦的不是那些海量的静态网站,而是那些通过JavaScript获取数据的站点。Python本身对js的支持不好,所以就有良心的开发者来做贡献了,这就是Selenium,他本身可以模拟真实的浏览器,浏览器所具有的功能他都有哦,加载js更是小菜了。
阅读全文
摘要:今天要爬取的网页是虎嗅网 我们将完成如下几个步骤: 创建一个新的Scrapy工程 定义你所需要要抽取的Item对象 编写一个spider来爬取某个网站并提取出所有的Item对象 编写一个Item Pipline来存储提取出来的Item对象 创建Scrapy工程 在任何目录下执行如下命令 我们看看创建
阅读全文
摘要:Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以帮助用户简单快速的部署一个专业的网络爬虫。如果说前面我们写的定制bs4爬虫是”手动挡“,那Scrapy就相当于”半自动档“的车。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。所谓网络爬虫,就
阅读全文
摘要:上次介绍了多进程并发相关内容,本次以爬取百度贴吧为例,进行实战演示。 爬去的网址:http://tieba.baidu.com/p/3522395718 本次爬去每层楼的发帖人、发帖内容和发帖时间。 闲话不说直接上代码 爬取结果:
阅读全文
摘要:目录: multiprocessing模块 如果你打算编写多进程的服务程序,Unix/Linux无疑是正确的选择。由于Windows没有fork调用,难道在Windows上无法用Python编写多进程的程序?由于Python是跨平台的,自然也应该提供一个跨平台的多进程支持。multiprocessi
阅读全文
摘要:首先我们打开唐诗三百首网页 目标分析: 网页详情如下: 我们很容易就能发现,每一个分类都是包裹在: 这种调理清晰的网站,大大方便了我们爬虫的编写。 下面是每个板块标题的特征 下面是每个板块的特征,很明显每首古诗的标题、链接的后半部分都存放在<a>标签里面。 这样一来,我们只需要在当前页面找到所有古诗
阅读全文
摘要:多线程类似于同时执行多个不同程序,多线程运行有如下优点: 使用线程可以把占据长时间的程序中的任务放到后台去处理。 用户界面可以更加吸引人,这样比如用户点击了一个按钮去触发某些事件的处理,可以弹出一个进度条来显示处理的进度 程序的运行速度可能加快 在一些等待的任务实现上如用户输入、文件读写和网络收发数
阅读全文
摘要:Beautiful Soup 库一般被称为bs4库,支持Python3,是我们写爬虫非常好的第三方库。因用起来十分的简便流畅。所以也被人叫做“美味汤”。下文会介绍该库的最基本的使用。 安装 Beautiful Soup Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理
阅读全文
摘要:爬虫的基本原理:爬虫本质上是模拟人浏览信息的过程,只不过他通过计算机来达到快速抓取筛选信息的目的。所以我们想要写一个爬虫,最基本的就是要将我们需要抓取信息的网页原原本本的抓取下来。这个时候就要用到requests库了。 1、requests的安装 requests库本质上就是模拟了我们用浏览器打开一
阅读全文

浙公网安备 33010602011771号