会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
sjfgod
博客园
首页
新随笔
联系
订阅
管理
2021年10月12日
ubuntu2004ubuntu18.04中解决MySQL的access denied for user root @localhost的方法中解决MySQL的access denied for user root @localhost的方法
摘要: 方法一: 环境配置:ubuntu18.04,MySQL版本为5.7.25 解决方法:1.打开/etc/mysql/debian.cnf文件,里面存储了系统管理员的密码 mysql -udebian-sys-maint -p2. 用udebian-sys-maint账号登录MySQL mysql -u
阅读全文
posted @ 2021-10-12 22:55 sjfgod
阅读(163)
评论(0)
推荐(0)
2021年10月6日
Anaconda 修改默认虚拟环境安装位置
摘要: 1.添加、删除envs_dirs:conda config --add envs_dirs dirconda config --remove envs_dirs dir conda config --add envs_dirs /home/baishuang/envs2.添加虚拟环境 conda c
阅读全文
posted @ 2021-10-06 09:26 sjfgod
阅读(3089)
评论(0)
推荐(0)
2021年10月1日
关于部署scrapyd项目报错问题
摘要: 在上述操作的过程中,在执行命令:scrapyd-deploy时遇报错: /usr/local/bin/scrapyd-deploy:23: ScrapyDeprecationWarning: Module `scrapy.utils.http` is deprecated, Please impor
阅读全文
posted @ 2021-10-01 19:35 sjfgod
阅读(326)
评论(0)
推荐(0)
scrapy scrapd部署错误:浏览器ip无法访问远程scrapyd
摘要: 本scrapy教程,主要解决这么一个问题:在服务器端安装好scrapyd服务并启动后,在浏览器输入:ip:6800,发现无法访问,如下图: 那应该怎么解决呢?我们需要修改scrapyd配置文件:default_scrapyd.conf 。首先找到scrapyd配置文件位置,一般是在如下路径: /us
阅读全文
posted @ 2021-10-01 16:36 sjfgod
阅读(421)
评论(0)
推荐(0)
2021年9月30日
Python之重写__init__()与__new__()方法时的注意事项
摘要: __new__()通常用于控制生成一个新实例的过程。它是类级别的方法。 在python中,真正创建实例的是__new__方法,这个方法是基于类的层面。__new__()至少需要传递一个参数cls,cls表示需要实例化的类。__new__()必须要有返回值,一般都是返回父类new方法出来的实例,即re
阅读全文
posted @ 2021-09-30 08:48 sjfgod
阅读(358)
评论(0)
推荐(0)
2021年9月29日
多页数据的爬取(使用ItemLoader填充容器)
摘要: 使用ItemLoader填充容器目前我们爬取的数据的字段较少,但是当项目很大、提取的字段数以百计时,数据的提取规则也会越来越多,再加上还要对提取到的数据做转换处理,代码就会变得庞大,维护起来十分困难。为了解决这个问题,Scrapy提供了项目加载器(ItemLoder)这样一个填充容器。通过填充容器,
阅读全文
posted @ 2021-09-29 14:06 sjfgod
阅读(203)
评论(0)
推荐(0)
2021年9月28日
Item Loader使用详解
摘要: Items 提供保存抓取数据的 容器 , 而 Item Loaders提供的是 填充 容器的机制 ItemLoader 类位于 scrapy.loader ,它可以接收一个 Item 实例来指定要加载的 Item, 然后指定 response 或者 selector 来确定要解析的内容,最后提供了
阅读全文
posted @ 2021-09-28 14:14 sjfgod
阅读(418)
评论(0)
推荐(0)
2021年9月27日
python爬虫进阶之scrapy的暂停与重启
摘要: scrapy的每一个爬虫,暂停时可以记录暂停状态以及爬取了哪些url,重启时可以从暂停状态开始爬取过的URL不在爬取 实现暂停与重启记录状态 方法一: 1、首先cd进入到scrapy项目里(当然你也可以通过编写脚本Python文件直接在pycharm中运行) 2、在scrapy项目里创建保存记录信息
阅读全文
posted @ 2021-09-27 21:16 sjfgod
阅读(877)
评论(0)
推荐(0)
scrapy中使用cmdline快捷运行项目
摘要: 在scrapy中,为了避免每一次运行或调试都输入一串命令,可以在项目文件下新建一个run.py文件,每次运行爬虫只需要运行此脚本即可。且运行调试模式也需要设置此启动脚本。 from scrapy import cmdline cmdline.execute('scrapy crawl zhihu_t
阅读全文
posted @ 2021-09-27 16:56 sjfgod
阅读(390)
评论(0)
推荐(0)
Scrapy框架之利用ImagesPipeline下载图片
摘要: 1.ImagesPipeline简介 Scrapy用ImagesPipeline类提供一种方便的方式来下载和存储图片。 特点: 将下载图片转换成通用的JPG和RGB格式 避免重复下载 缩略图生成 图片大小过滤 2.ImagesPipeline工作流程 当使用图片管道 ImagePipeline,典型
阅读全文
posted @ 2021-09-27 10:57 sjfgod
阅读(634)
评论(0)
推荐(0)
下一页
公告