随笔分类 - 数据采集
数据采集(requests, urllib, scrapy)
摘要:1,爬虫的介绍: 引入 我们都知道,我们当前所处的环境是一个大数据的时代,油漆是互联网,数掌握了数据,谁就掌握了市场的先机,要想掌控数据,就得先获取数据,而爬虫就可以让我们获取到数据源,并且这些数据源考科一根据我们的目的进行采集 优酷的火星情报局就是基于网络爬虫和数据分析制作完成的,其中每期的节目话
阅读全文
摘要:1,scrapy框架的官网:https://scrapy.org/ 什么是scrapy框架: scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用内框架,非常出名,所谓框架就是一个已经继承了各种功能(高性能异步下载, 队列,分布式,解析,持久化存储等)具有很强的项目模板,对于框架的学习,
阅读全文
摘要:1,动态数据加载的处理 图片懒加载概念: 图片懒加载是一种页面优化技术.图片作为一种网络资源,在被请求时也与静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面首屏加载时间,为了解决这些问题,通过前后端配合,是图片仅在浏览器当前窗口出现时才加载给图片,达到减少首屏图片请求
阅读全文
摘要:1,什么是jupyter notebook? 简介:jupyter notebook是基于网页的用户交互计算机的应用程序,其可被用于全过程计算:开发,文档编写,运行代码,和展示结果 简而言之,Jupyter Noyebook是以网页的形式打开的,可以在网页中直接编写和运行代码,代码的运行结果也会直接
阅读全文
摘要:1,正则解析:就是通过正则匹配定位到要获取数据的标签,获取响应的数据 直接上代码(以爬取糗事百科为例) 2,xpath的表达式:是一种用来定位标签的层级关系的一中表达式 xpath表达式的要点: 代码中xpath表达式进行数据解析: 下载:pip install lxml 导包: from lxml
阅读全文
摘要:1,requests的get请求的发送 什么是requests模块:requests模块是Python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求.功能强大,用简洁高效的语言,在爬虫领域占据着半壁江山的位置 requests向比较与urllib的request的极大优势: 不用手动
阅读全文
摘要:一:urllib库: urllib是Python自带的一个用于爬虫的库,器主要作用就是可以通过代码模拟浏览器发送请求.其被用到子模块在Python3中的urllib.request和urllib.parse,在Python2中是urllib和urllib2. 二,有易到难的爬虫程序: 爬取到百度页面
阅读全文
浙公网安备 33010602011771号