会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
cknds
博客园
首页
新随笔
联系
管理
订阅
上一页
1
···
9
10
11
12
13
14
15
16
17
···
21
下一页
2020年4月8日
多个scrapy同时执行
摘要: 项目中单机使用shell脚本进行多个scrapy命令的运行,即同个shell进行多个scrapy命令的执行,这样会大大提高爬取效率,好好利用CPU使用率 在shell命令行一次执行多个scrapy命令,可以有三种方式: (一)每个命令之间用 ; 隔开 scrapy crawl a;scrapy cr
阅读全文
posted @ 2020-04-08 11:44 cknds
阅读(324)
评论(0)
推荐(0)
2020年4月6日
idea 集成插件的两种方式
摘要: 使用idea自身安装插件 打开File—》Settings 找到Plugins再进行下图操作 然后在输入需要的插件名称进行搜索,找到后点击install 另一种方式是直接去http://plugins.jetbrains.com/下载插件 先在搜索栏输入插件名 然后能看到插件的版本,选择自己可用的版
阅读全文
posted @ 2020-04-06 10:10 cknds
阅读(713)
评论(0)
推荐(0)
2020年4月5日
python语言中threading.Thread类的使用方法
摘要: 1. 编程语言里面的任务和线程是很重要的一个功能。在python里面,线程的创建有两种方式,其一使用Thread类创建 # 导入Python标准库中的Thread模块 from threading import Thread # 创建一个线程 mthread = threading.Thread(t
阅读全文
posted @ 2020-04-05 18:58 cknds
阅读(4913)
评论(0)
推荐(1)
2020年4月3日
python安装模块如何通过setup.py安装以及如何卸载这种安装
摘要: 在安装python的相关模块和库时,我们一般使用“pip install 模块名”或者“python setup.py install”,前者是在线安装,会安装该包的相关依赖包;后者是下载源码包然后在本地安装,不会安装该包的相关依赖包。所以在安装普通的python包时,利用pip工具相当简单 有些时
阅读全文
posted @ 2020-04-03 14:37 cknds
阅读(5358)
评论(0)
推荐(0)
2020年3月23日
Python中单下划线和双下划线
摘要: 什么是 Python? Python 之父 Guido van Rossum 说:Python是一种高级程序语言,其核心设计哲学是代码可读性和语法,能够让程序员用很少的代码来表达自己的想法。 对于我来说,学习 Python 的首要原因是,Python 是一种可以优雅编程的语言。它能够简单自然地写出代
阅读全文
posted @ 2020-03-23 10:25 cknds
阅读(895)
评论(0)
推荐(0)
2020年3月18日
scrapy在重复爬取的时候删除掉之前爬的旧数据,在爬虫结束的时候收集统计信息
摘要: 问题:想在启动scrapy后重复爬取某一天的数据,但是爬取之前需要删除掉之前的旧数据,在哪里实现删除呢? 可以在pipeline的open_spider(self,spider)中删除,则在爬虫启动的时候会删除。 以下是pipelines.py 文件 # -*- coding: utf-8 -*-
阅读全文
posted @ 2020-03-18 23:19 cknds
阅读(1042)
评论(0)
推荐(0)
2020年3月12日
requests请求中代理ip中的proxies
摘要: proxies的格式是一个字典:{‘http’: ‘http://42.84.226.65:8888‘} 有http与https两种,在爬取不同网站时我们需要选用不同类型的网站时选用不同的proxise,在不知道网站类型时可以将两种类型均放进去,requests会自动选择合适的 proxies =
阅读全文
posted @ 2020-03-12 23:41 cknds
阅读(6145)
评论(0)
推荐(1)
requests库怎么验证代理是否有效
摘要: 现在要访问一个目标地址是http的地址:http://icanhazip.com/,这个地址可以获取机器的外网ip理论上,由于上述地址是http的,所以使用http代理会通过代理访问该地址,即res =requests.get('http://icanhazip.com/', proxies={'h
阅读全文
posted @ 2020-03-12 23:33 cknds
阅读(981)
评论(0)
推荐(0)
用MySQL创建定时任务
摘要: -- 查看有哪些定时计划 show events -- 删除名称为risk的定时计划 DROP EVENT IF EXISTS risk; -- 创建定时计划的例子,每天定时,自动将日期加1天 CREATE EVENT `risk_spider_crawl_param_update` ON SCHE
阅读全文
posted @ 2020-03-12 16:32 cknds
阅读(2394)
评论(0)
推荐(0)
scrapy中如何设置request的重试次数
摘要: 在使用scrapy抓取数据的时候使用了代理IP,难免会遇到代理IP失效的情况。 因为对数据完整性要求较高,请问如何设置只要没有成功的返回response则把任务重新放进Request队列中去继续爬取? 可以使用scrapy自带的 scrapy.downloadermiddlewares.retry.
阅读全文
posted @ 2020-03-12 09:30 cknds
阅读(3087)
评论(0)
推荐(0)
上一页
1
···
9
10
11
12
13
14
15
16
17
···
21
下一页
公告