数据采集 - 随笔分类 - 帅爆太阳的男人

爬虫之初识爬虫

摘要：1,爬虫的介绍: 引入我们都知道,我们当前所处的环境是一个大数据的时代,油漆是互联网,数掌握了数据,谁就掌握了市场的先机,要想掌控数据,就得先获取数据,而爬虫就可以让我们获取到数据源,并且这些数据源考科一根据我们的目的进行采集优酷的火星情报局就是基于网络爬虫和数据分析制作完成的,其中每期的节目话阅读全文

posted @ 2019-03-08 20:41 帅爆太阳的男人阅读(433) 评论(2) 推荐(0)

scrapy框架的解析

摘要：1,scrapy框架的官网:https://scrapy.org/ 什么是scrapy框架: scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用内框架,非常出名,所谓框架就是一个已经继承了各种功能(高性能异步下载, 队列,分布式,解析,持久化存储等)具有很强的项目模板,对于框架的学习, 阅读全文

posted @ 2019-01-28 21:03 帅爆太阳的男人阅读(686) 评论(0) 推荐(0)

图片懒加载和UA池,UA代理池

摘要：1,动态数据加载的处理图片懒加载概念: 图片懒加载是一种页面优化技术.图片作为一种网络资源,在被请求时也与静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面首屏加载时间,为了解决这些问题,通过前后端配合,是图片仅在浏览器当前窗口出现时才加载给图片,达到减少首屏图片请求阅读全文

posted @ 2019-01-28 21:02 帅爆太阳的男人阅读(366) 评论(0) 推荐(0)

jupyter环境的安装

摘要：1,什么是jupyter notebook? 简介:jupyter notebook是基于网页的用户交互计算机的应用程序,其可被用于全过程计算:开发,文档编写,运行代码,和展示结果简而言之,Jupyter Noyebook是以网页的形式打开的,可以在网页中直接编写和运行代码,代码的运行结果也会直接阅读全文

posted @ 2019-01-28 21:02 帅爆太阳的男人阅读(163) 评论(0) 推荐(0)

爬虫的三种数据解析方式和验证码的处理

摘要：1,正则解析:就是通过正则匹配定位到要获取数据的标签,获取响应的数据直接上代码(以爬取糗事百科为例) 2,xpath的表达式:是一种用来定位标签的层级关系的一中表达式 xpath表达式的要点: 代码中xpath表达式进行数据解析: 下载:pip install lxml 导包: from lxml 阅读全文

posted @ 2019-01-28 21:01 帅爆太阳的男人阅读(3788) 评论(0) 推荐(0)

Python爬虫之requests模块

摘要：1,requests的get请求的发送什么是requests模块:requests模块是Python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求.功能强大,用简洁高效的语言,在爬虫领域占据着半壁江山的位置 requests向比较与urllib的request的极大优势: 不用手动阅读全文

posted @ 2019-01-28 21:00 帅爆太阳的男人阅读(458) 评论(0) 推荐(0)

第一个get请求的爬虫程序

摘要：一:urllib库: urllib是Python自带的一个用于爬虫的库,器主要作用就是可以通过代码模拟浏览器发送请求.其被用到子模块在Python3中的urllib.request和urllib.parse,在Python2中是urllib和urllib2. 二,有易到难的爬虫程序: 爬取到百度页面阅读全文

posted @ 2019-01-28 21:00 帅爆太阳的男人阅读(376) 评论(0) 推荐(0)

随笔分类 - 数据采集

公告