摘要: 方法一: 环境配置:ubuntu18.04,MySQL版本为5.7.25 解决方法:1.打开/etc/mysql/debian.cnf文件,里面存储了系统管理员的密码 mysql -udebian-sys-maint -p2. 用udebian-sys-maint账号登录MySQL mysql -u 阅读全文
posted @ 2021-10-12 22:55 sjfgod 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 1.添加、删除envs_dirs:conda config --add envs_dirs dirconda config --remove envs_dirs dir conda config --add envs_dirs /home/baishuang/envs2.添加虚拟环境 conda c 阅读全文
posted @ 2021-10-06 09:26 sjfgod 阅读(2482) 评论(0) 推荐(0) 编辑
摘要: 在上述操作的过程中,在执行命令:scrapyd-deploy时遇报错: /usr/local/bin/scrapyd-deploy:23: ScrapyDeprecationWarning: Module `scrapy.utils.http` is deprecated, Please impor 阅读全文
posted @ 2021-10-01 19:35 sjfgod 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 本scrapy教程,主要解决这么一个问题:在服务器端安装好scrapyd服务并启动后,在浏览器输入:ip:6800,发现无法访问,如下图: 那应该怎么解决呢?我们需要修改scrapyd配置文件:default_scrapyd.conf 。首先找到scrapyd配置文件位置,一般是在如下路径: /us 阅读全文
posted @ 2021-10-01 16:36 sjfgod 阅读(310) 评论(0) 推荐(0) 编辑
摘要: __new__()通常用于控制生成一个新实例的过程。它是类级别的方法。 在python中,真正创建实例的是__new__方法,这个方法是基于类的层面。__new__()至少需要传递一个参数cls,cls表示需要实例化的类。__new__()必须要有返回值,一般都是返回父类new方法出来的实例,即re 阅读全文
posted @ 2021-09-30 08:48 sjfgod 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 使用ItemLoader填充容器目前我们爬取的数据的字段较少,但是当项目很大、提取的字段数以百计时,数据的提取规则也会越来越多,再加上还要对提取到的数据做转换处理,代码就会变得庞大,维护起来十分困难。为了解决这个问题,Scrapy提供了项目加载器(ItemLoder)这样一个填充容器。通过填充容器, 阅读全文
posted @ 2021-09-29 14:06 sjfgod 阅读(173) 评论(0) 推荐(0) 编辑
摘要: Items 提供保存抓取数据的 容器 , 而 Item Loaders提供的是 填充 容器的机制 ItemLoader 类位于 scrapy.loader ,它可以接收一个 Item 实例来指定要加载的 Item, 然后指定 response 或者 selector 来确定要解析的内容,最后提供了 阅读全文
posted @ 2021-09-28 14:14 sjfgod 阅读(332) 评论(0) 推荐(0) 编辑
摘要: scrapy的每一个爬虫,暂停时可以记录暂停状态以及爬取了哪些url,重启时可以从暂停状态开始爬取过的URL不在爬取 实现暂停与重启记录状态 方法一: 1、首先cd进入到scrapy项目里(当然你也可以通过编写脚本Python文件直接在pycharm中运行) 2、在scrapy项目里创建保存记录信息 阅读全文
posted @ 2021-09-27 21:16 sjfgod 阅读(762) 评论(0) 推荐(0) 编辑
摘要: 在scrapy中,为了避免每一次运行或调试都输入一串命令,可以在项目文件下新建一个run.py文件,每次运行爬虫只需要运行此脚本即可。且运行调试模式也需要设置此启动脚本。 from scrapy import cmdline cmdline.execute('scrapy crawl zhihu_t 阅读全文
posted @ 2021-09-27 16:56 sjfgod 阅读(338) 评论(0) 推荐(0) 编辑
摘要: 1.ImagesPipeline简介 Scrapy用ImagesPipeline类提供一种方便的方式来下载和存储图片。 特点: 将下载图片转换成通用的JPG和RGB格式 避免重复下载 缩略图生成 图片大小过滤 2.ImagesPipeline工作流程 当使用图片管道 ImagePipeline,典型 阅读全文
posted @ 2021-09-27 10:57 sjfgod 阅读(549) 评论(0) 推荐(0) 编辑