哪有什么岁月静好,不过是有人替你负重前行!

随笔分类 -  爬虫

摘要:爬取拉勾网关于python职位相关的数据信息,并将爬取的数据已csv各式存入文件,然后对csv文件相关字段的数据进行清洗,并对数据可视化展示,包括柱状图展示、直方图展示、词云展示等并根据可视化的数据做进一步的分析,其余分析和展示读者可自行发挥和扩展包括各种分析和不同的存储方式等。。。。。 一、爬取和 阅读全文
posted @ 2019-07-07 17:38 迎风而来 阅读(12731) 评论(10) 推荐(20) 编辑
摘要:在进行单个爬虫抓取的时候,我们不可能按照一次抓取一个url的方式进行网页抓取,这样效率低,也浪费了cpu的资源。目前python上面进行并发抓取的实现方式主要有以下几种:进程,线程,协程。进程不在的讨论范围之内,一般来说,进程是用来开启多个spider,比如我们开启了4进程,同时派发4个spider 阅读全文
posted @ 2018-12-01 21:58 迎风而来 阅读(6212) 评论(1) 推荐(1) 编辑
摘要:前言 简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析、渲染,将丰富多彩的网页呈现我们眼前; 一、爬虫是什么? 如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛, 沿 阅读全文
posted @ 2018-11-26 01:06 迎风而来 阅读(537) 评论(0) 推荐(2) 编辑
摘要:提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬去进行实现的(Request模块回调) 方法二:基于CrawlSpider的自动爬去进行实现(更加简洁和高效) 一、简单介绍CrawlSpider CrawlSpide 阅读全文
posted @ 2018-09-29 15:55 迎风而来 阅读(5154) 评论(0) 推荐(2) 编辑
摘要:一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。 二.sc 阅读全文
posted @ 2018-09-28 16:37 迎风而来 阅读(11621) 评论(1) 推荐(21) 编辑
摘要:一、什么是图片懒加载 在网页中,常常需要用到图片,而图片需要消耗较大的流量。正常情况下,浏览器会解析整个HTML代码,然后从上到下依次加载<img src="xxx">的图片标签。如果页面很长,隐藏在页面下方的图片其实已经被浏览器加载了。如果用户不向下滚动页面,就没有看到这些图片,相当于白白浪费了图 阅读全文
posted @ 2018-09-27 16:49 迎风而来 阅读(1838) 评论(0) 推荐(1) 编辑
摘要:一、正则解析 正则练习 -综合练习: 需求:爬取糗事百科指定页面的糗图,并将其保存到指定文件夹中 二.bs4解析 - 环境安装: - 简单使用规则: - 综合练习: 需求:使用bs4实现将诗词名句网站中三国演义小说的每一章的内容爬去到本地磁盘进行存储 http://www.shicimingju.c 阅读全文
posted @ 2018-09-26 21:06 迎风而来 阅读(566) 评论(0) 推荐(1) 编辑
摘要:一、requests基于cookie操作 引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,因为没有携带登录的cookie,所以爬去下来的并不是个人主页数据,而是人人网首页的数据, 阅读全文
posted @ 2018-09-26 20:10 迎风而来 阅读(615) 评论(0) 推荐(1) 编辑
摘要:一:Requests: 让 HTTP 服务人类 虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。 Requests 唯一的一个非转基因的 阅读全文
posted @ 2018-09-25 21:37 迎风而来 阅读(10094) 评论(0) 推荐(2) 编辑
摘要:一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。 二.由易到难的爬虫程序: 1.爬取百 阅读全文
posted @ 2018-09-25 20:20 迎风而来 阅读(1507) 评论(0) 推荐(2) 编辑
摘要:一:HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法,以明文的形式传输,效率高,但是不安全 HTTPS(Hypertext Transfer Protocol over Secure Socket La 阅读全文
posted @ 2018-09-25 19:56 迎风而来 阅读(1473) 评论(0) 推荐(2) 编辑
摘要:一、什么是爬虫 在学习爬虫之前我们科普一下什么是爬虫呢? 爬虫就是编写程序模拟浏览器上网,然后让其取互联网上抓取数据的过程 访问1个站点,获取该站点的html代码 解析html代码,把感兴趣的数据从html代码里分离出来 保存这些数据 二、哪些语言可以实现爬虫 1.php:可以实现爬虫。php被号称 阅读全文
posted @ 2018-09-25 19:14 迎风而来 阅读(472) 评论(0) 推荐(1) 编辑

/*吸附球*/