摘要: Gerapy 使用 Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd Client、Scrapy Redis、Scrapyd API、Scrapy Splash、Jinjia2、Django、Vue.js 开发,Gerapy 可以帮助 阅读全文
posted @ 2019-12-26 16:54 sasmen 阅读(1679) 评论(0) 推荐(0) 编辑
摘要: Python虚拟环境的安装和配置 virtualenv 一 虚拟环境 virtual environment 它是一个虚拟化,从电脑独立开辟出来的环境。通俗的来讲,虚拟环境就是借助虚拟机docker来把一部分内容独立出来,我们把这部分独立出来的东西称作“容器”,在这个容器中,我们可以只安装我们需要的 阅读全文
posted @ 2019-12-26 09:53 sasmen 阅读(588) 评论(0) 推荐(0) 编辑
摘要: docker compose命令 1.Docker Compose安装 推荐使用pip安装docker compose,因为速度快,pip可以为你自动对应版本问题!!! "pip安装链接" 如果要启动docker compose的话,需要cd到docker compose.yml的目录下。 阅读全文
posted @ 2019-12-21 09:32 sasmen 阅读(779) 评论(0) 推荐(0) 编辑
摘要: 我们坑同时在运行2个项目。而2个不同的项目所使用的node版本又不一样,或者是要用更新的node版本进行试验或学习。这种情况下,对于维护多个版本的node将会是一键非常麻烦的事情,而nvm就是为了解决这个问题而产生的,他可以方便的在同一台设备上进行多个node版本之间的切换,而这个正是nvm的价值所 阅读全文
posted @ 2019-12-20 16:29 sasmen 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫。 “中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数据,做一些修改再把数据传递出去。不同 阅读全文
posted @ 2019-12-20 10:54 sasmen 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 爬虫中间件 爬虫中间件的用法与下载器中间件非常相似,只是它们的作用对象不同。下载器中间件的作用对象是请求request和返回response;爬虫中间件的作用对象是爬虫,更具体地来说,就是写在spiders文件夹下面的各个文件。它们的关系,在Scrapy的数据流图上可以很好地区分开来,如下图所示。 阅读全文
posted @ 2019-12-20 10:51 sasmen 阅读(131) 评论(0) 推荐(0) 编辑
摘要: requirements作用描述: 很多 Python 项目中经常会包含一个 requirements.txt 文件,里面内容是项目的依赖包及其对应版本号的信息列表, 即项目依赖关系清单,其作用是用来重新构建项目所需要的运行环境依赖, 比如你从 GitHub 上 clone 了一个 Python 项 阅读全文
posted @ 2019-12-19 15:37 sasmen 阅读(289) 评论(0) 推荐(0) 编辑
摘要: Cron表达式范例: :每隔5秒执行一次 :每隔1分钟执行一次 :每天23点执行一次 :每天凌晨1点执行一次: :每月1号凌晨1点执行一次 : 每月最后一天23点执行一次 :每周星期天凌晨1点实行一次 : 在26分、29分、33分执行一次 : 每天的0点、13点、18点、21点都执行一次 Cron 阅读全文
posted @ 2019-12-19 11:46 sasmen 阅读(4152) 评论(0) 推荐(0) 编辑
摘要: 1、读取文件 r读,r+读写 2、逐行读取与全部读取 3、关闭文件 3、常用文件操作 阅读全文
posted @ 2019-12-18 11:14 sasmen 阅读(117) 评论(0) 推荐(0) 编辑
摘要: flask是一个使用python编写的轻量级Web应用框架。与django不同,Django创建工程时,会直接构架好工程目录。而flask工程几乎是自己创建结构。 1.导入相关模块以及需要使用的模块: pip install flask :安装flask以及相关依赖 pip install pymy 阅读全文
posted @ 2019-12-18 10:43 sasmen 阅读(757) 评论(0) 推荐(0) 编辑