会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
神神气气
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
下一页
2019年3月6日
数据分析之Numpy
摘要: 一、创建ndarray 1、使用np.array()创建 一维数组 二维数组 注意: numpy默认ndarray的所有元素的类型是相同的 如果传进来的列表中包含不同的类型,则统一为同一类型,优先级:str>float>int 2、使用np的routines函数创建 1、 np.linspace(s
阅读全文
posted @ 2019-03-06 11:05 神神气气
阅读(168)
评论(0)
推荐(0)
2019年3月5日
scrapy数据增量式爬取
摘要: 爬取过的数据跳过1、通过url判断2、通过数据指纹判断 创建爬虫项目 :scrapy startproject xxx cd xxx 创建爬虫文件:scrapy genspider -t crawl spidername www.xxx.com 一、根据url判断 爬虫文件 在管道文件里进行存储 二
阅读全文
posted @ 2019-03-05 19:43 神神气气
阅读(1751)
评论(0)
推荐(0)
2019年3月4日
scrapy提交关键字请求
摘要: 提交查询关键字的请求 这里重写父类的start_requests方法
阅读全文
posted @ 2019-03-04 19:56 神神气气
阅读(372)
评论(0)
推荐(0)
关于scrapy里的中间件和请求传参
摘要: 一、中间件 scrapy中间件事介于下载器和scrapy引擎之间,主要是接收和发送响应和请求 下面是关于中间件的方法的介绍 1 class MiddleproDownloaderMiddleware(object): 2 user_agent_list = [ 3 "Mozilla/5.0 (Win
阅读全文
posted @ 2019-03-04 19:42 神神气气
阅读(925)
评论(0)
推荐(0)
2019年3月3日
利用scrapy框架爬取动态加载的数据
摘要: 在爬取有些网站的是后,数据不一定全部是可视化界面的,当我们拖动滚动条时才会加载其他的数据,如果我们也想爬取这部分数据,就需要使用selenium模块,在scrapy里可以结合该模块修改返回对象 一、编写爬虫文件代码 注意,当创建完浏览器对象时,按照以前的写法,我们会直接的解析def parse 方法
阅读全文
posted @ 2019-03-03 20:34 神神气气
阅读(3943)
评论(0)
推荐(1)
2019年3月1日
利用scrapy爬取文件后并基于管道化的持久化存储
摘要: 一、爬取数据 在创建爬虫程序之后写入爬取数据的代码 之后在items.py 文件里为item对象设置属性 我们将爬取到的信息全部设置为item的属性 二、写入pipelines.py内容 我们自定义一个类,将item的数据写入到mysql里(在这之前将mysql和redis都启动) 在相同的文件下创
阅读全文
posted @ 2019-03-01 19:35 神神气气
阅读(548)
评论(0)
推荐(0)
scrapy框架的简单使用
摘要: 一 、安装scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架 安装: 1、 pip3 install wheel 2、下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 3、进入下载目录,执行 pip
阅读全文
posted @ 2019-03-01 19:19 神神气气
阅读(183)
评论(0)
推荐(0)
2019年2月28日
模拟登录爬取数据、线程池的使用
摘要: 云打码平台 注册:普通用户和开发者用户 登录: 登录开发者用户 创建一个软件:我的软件 -> 创建软件 下载示例代码:开发者中心 -> 下载最新的DDL -> pythonHttp示例代码下载 1、模拟人人网登录 代码示例 1 import http.client, mimetypes, urlli
阅读全文
posted @ 2019-02-28 20:09 神神气气
阅读(316)
评论(0)
推荐(0)
2019年2月27日
利用etree对象进行爬取数据(xpath函数)
摘要: 环境安装pip install lxml 解析原理: 获取页面源码数据 实例化一个etree的对象,并且将页面源码数据加载到该对象中 调用该对象的xpath方法进行指定标签的定位 注意:xpath函数必须结合着xpath表达式进行标签定位和内容捕获 实例 1、例如爬取58二手房相关的数据 代码: 2
阅读全文
posted @ 2019-02-27 20:35 神神气气
阅读(2129)
评论(0)
推荐(0)
2019年2月26日
使用requests模块简单获取数据
摘要: 一、使用ruquests的基本步骤: 指定url 发起请求 获取响应对象中的数据 持久化存储 二、爬取搜狗指定搜索 三、Ajax请求 通过抓包,获取请求携带的参数, 例如获取分页显示的数据,当点击下一页时,发送ajax请求,对此时的url请求可以动,这里我们定义好请求参数param,动态的指定页码和
阅读全文
posted @ 2019-02-26 21:19 神神气气
阅读(1612)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
下一页
公告