爬虫 - 随笔分类 - W的一天

爬虫之抓取js生成的数据

摘要：有很多页面，当我们用request发送请求，返回的内容里面并没有页面上显示的数据，主要有两种情况，一是通过ajax异步发送请求，得到响应把数据放入页面中，对于这种情况，我们可以查看关于ajax的请求，然后分析ajax请求路径和响应，拿到想要的数据；另外一种就是js动态加载得到的数据，然后放入页面中。阅读全文

posted @ 2019-03-23 09:58 W的一天阅读(19066) 评论(1) 推荐(2)

爬虫之scrapy框架

摘要：一、认识scrapy框架何为框架，就相当于一个封装了很多功能的结构体，它帮我们把主要的结构给搭建好了，我们只需往骨架里添加内容就行。scrapy框架是一个为了爬取网站数据，提取数据的框架，我们熟知爬虫总共有四大部分，请求、响应、解析、存储，scrapy框架都已经搭建好了。scrapy是基于twis 阅读全文

posted @ 2019-03-09 16:16 W的一天阅读(9683) 评论(1) 推荐(4)

爬虫之selenium模块

摘要：一、selenium模块之前，我们爬虫是模拟浏览器，但始终不是用的浏览器，但今天我们要说的是另一种爬虫方式，这次不是模拟浏览器，而是用程序去控制浏览器进行一些列操作，也就是selenium。selenium是python的一个第三方库，对外提供的接口可以操控浏览器，比如说输入、点击，跳转，下拉等动阅读全文

posted @ 2019-03-04 22:35 W的一天阅读(1971) 评论(0) 推荐(3)

爬虫之数据解析

摘要：一、啥是数据解析在上一篇关于爬虫的博客里，我提到过，整个爬虫分为四个部分，上一篇博客已经完成了前两步，也就是我说的最难的地方，接下来这一步数据解析不是很难，但就是很烦人，但只要你有耐心，一步一步查找、排除就会提取出目标信息，这一步就相当于从接收到的庞大数据中提取出真正想要、有意义的信息，所以对于爬阅读全文

posted @ 2019-03-03 09:05 W的一天阅读(4598) 评论(1) 推荐(0)

爬虫之requests模块

摘要：一、爬虫我所理解的爬虫就是编写程序，模拟浏览器发送请求，然后服务端把数据响应给我，然后我再对响应的数据做解析，拿到我想要的那一小部分，这就是整个爬虫过程。说起来很简单哈，其实不然，门户网站是很不希望他们的数据被爬虫程序拿到，有可能说有些不怀好意的人拿数据干见不得人的勾当，或者说现在大数据时代，有数阅读全文

posted @ 2019-03-02 15:15 W的一天阅读(2682) 评论(0) 推荐(0)

W的一天

随笔分类 - 爬虫

公告