随笔分类 - 爬虫
摘要:有很多页面,当我们用request发送请求,返回的内容里面并没有页面上显示的数据,主要有两种情况,一是通过ajax异步发送请求,得到响应把数据放入页面中,对于这种情况,我们可以查看关于ajax的请求,然后分析ajax请求路径和响应,拿到想要的数据;另外一种就是js动态加载得到的数据,然后放入页面中。
阅读全文
摘要:一、认识scrapy框架 何为框架,就相当于一个封装了很多功能的结构体,它帮我们把主要的结构给搭建好了,我们只需往骨架里添加内容就行。scrapy框架是一个为了爬取网站数据,提取数据的框架,我们熟知爬虫总共有四大部分,请求、响应、解析、存储,scrapy框架都已经搭建好了。scrapy是基于twis
阅读全文
摘要:一、selenium模块 之前,我们爬虫是模拟浏览器,但始终不是用的浏览器,但今天我们要说的是另一种爬虫方式,这次不是模拟浏览器,而是用程序去控制浏览器进行一些列操作,也就是selenium。selenium是python的一个第三方库,对外提供的接口可以操控浏览器,比如说输入、点击,跳转,下拉等动
阅读全文
摘要:一、啥是数据解析 在上一篇关于爬虫的博客里,我提到过,整个爬虫分为四个部分,上一篇博客已经完成了前两步,也就是我说的最难的地方,接下来这一步数据解析不是很难,但就是很烦人,但只要你有耐心,一步一步查找、排除就会提取出目标信息,这一步就相当于从接收到的庞大数据中提取出真正想要、有意义的信息,所以对于爬
阅读全文
摘要:一、爬虫 我所理解的爬虫就是编写程序,模拟浏览器发送请求,然后服务端把数据响应给我,然后我再对响应的数据做解析,拿到我想要的那一小部分,这就是整个爬虫过程。说起来很简单哈,其实不然,门户网站是很不希望他们的数据被爬虫程序拿到,有可能说有些不怀好意的人拿数据干见不得人的勾当,或者说现在大数据时代,有数
阅读全文

浙公网安备 33010602011771号