sjfgod

2021年10月12日

ubuntu2004ubuntu18.04中解决MySQL的access denied for user root @localhost的方法中解决MySQL的access denied for user root @localhost的方法

摘要：方法一：环境配置：ubuntu18.04，MySQL版本为5.7.25 解决方法:1.打开/etc/mysql/debian.cnf文件,里面存储了系统管理员的密码 mysql -udebian-sys-maint -p2. 用udebian-sys-maint账号登录MySQL mysql -u 阅读全文

posted @ 2021-10-12 22:55 sjfgod 阅读(168) 评论(0) 推荐(0)

2021年10月6日

Anaconda 修改默认虚拟环境安装位置

摘要： 1.添加、删除envs_dirs:conda config --add envs_dirs dirconda config --remove envs_dirs dir conda config --add envs_dirs /home/baishuang/envs2.添加虚拟环境 conda c 阅读全文

posted @ 2021-10-06 09:26 sjfgod 阅读(3094) 评论(0) 推荐(0)

2021年10月1日

关于部署scrapyd项目报错问题

摘要：在上述操作的过程中，在执行命令：scrapyd-deploy时遇报错： /usr/local/bin/scrapyd-deploy:23: ScrapyDeprecationWarning: Module `scrapy.utils.http` is deprecated, Please impor 阅读全文

posted @ 2021-10-01 19:35 sjfgod 阅读(334) 评论(0) 推荐(0)

scrapy scrapd部署错误：浏览器ip无法访问远程scrapyd

摘要：本scrapy教程，主要解决这么一个问题：在服务器端安装好scrapyd服务并启动后，在浏览器输入：ip:6800，发现无法访问，如下图：那应该怎么解决呢？我们需要修改scrapyd配置文件：default_scrapyd.conf 。首先找到scrapyd配置文件位置，一般是在如下路径： /us 阅读全文

posted @ 2021-10-01 16:36 sjfgod 阅读(428) 评论(0) 推荐(0)

2021年9月30日

Python之重写__init__()与__new__()方法时的注意事项

摘要： __new__()通常用于控制生成一个新实例的过程。它是类级别的方法。在python中，真正创建实例的是__new__方法，这个方法是基于类的层面。__new__()至少需要传递一个参数cls，cls表示需要实例化的类。__new__()必须要有返回值，一般都是返回父类new方法出来的实例，即re 阅读全文

posted @ 2021-09-30 08:48 sjfgod 阅读(365) 评论(0) 推荐(0)

2021年9月29日

多页数据的爬取（使用ItemLoader填充容器）

摘要：使用ItemLoader填充容器目前我们爬取的数据的字段较少，但是当项目很大、提取的字段数以百计时，数据的提取规则也会越来越多，再加上还要对提取到的数据做转换处理，代码就会变得庞大，维护起来十分困难。为了解决这个问题，Scrapy提供了项目加载器（ItemLoder）这样一个填充容器。通过填充容器，阅读全文

posted @ 2021-09-29 14:06 sjfgod 阅读(213) 评论(0) 推荐(0)

2021年9月28日

Item Loader使用详解

摘要： Items 提供保存抓取数据的容器，而 Item Loaders提供的是填充容器的机制 ItemLoader 类位于 scrapy.loader ，它可以接收一个 Item 实例来指定要加载的 Item, 然后指定 response 或者 selector 来确定要解析的内容，最后提供了阅读全文

posted @ 2021-09-28 14:14 sjfgod 阅读(425) 评论(0) 推荐(0)

2021年9月27日

python爬虫进阶之scrapy的暂停与重启

摘要： scrapy的每一个爬虫，暂停时可以记录暂停状态以及爬取了哪些url，重启时可以从暂停状态开始爬取过的URL不在爬取实现暂停与重启记录状态方法一： 1、首先cd进入到scrapy项目里（当然你也可以通过编写脚本Python文件直接在pycharm中运行） 2、在scrapy项目里创建保存记录信息阅读全文

posted @ 2021-09-27 21:16 sjfgod 阅读(881) 评论(0) 推荐(0)

scrapy中使用cmdline快捷运行项目

摘要：在scrapy中，为了避免每一次运行或调试都输入一串命令，可以在项目文件下新建一个run.py文件，每次运行爬虫只需要运行此脚本即可。且运行调试模式也需要设置此启动脚本。 from scrapy import cmdline cmdline.execute('scrapy crawl zhihu_t 阅读全文

posted @ 2021-09-27 16:56 sjfgod 阅读(394) 评论(0) 推荐(0)

Scrapy框架之利用ImagesPipeline下载图片

摘要： 1.ImagesPipeline简介 Scrapy用ImagesPipeline类提供一种方便的方式来下载和存储图片。特点：将下载图片转换成通用的JPG和RGB格式避免重复下载缩略图生成图片大小过滤 2.ImagesPipeline工作流程当使用图片管道 ImagePipeline,典型阅读全文

posted @ 2021-09-27 10:57 sjfgod 阅读(642) 评论(0) 推荐(0)

公告