上一页 1 ··· 4 5 6 7 8
摘要: scrapy框架中已经为我们专门集成好了高效、便捷的持久化操作功能,我们直接使用即可。 这两个组件配合爬虫文件实现数据持久化 items.py:数据结构模板文件。定义数据属性。 pipelines.py:管道文件。接收数据(items),进行持久化操作。 持久化流程: 1.爬虫文件爬取到数据后,需要 阅读全文
posted @ 2020-07-27 14:01 bibicode 阅读(623) 评论(0) 推荐(0)
摘要: 爬取糗事百科首页,把标题和作者写入到本地文件 创建糗事百科爬虫 scrapy genspider qiushi https://www.qiushibaike.com/ qiushi.py代码 import scrapy class QiushiSpider(scrapy.Spider): name 阅读全文
posted @ 2020-07-27 11:29 bibicode 阅读(138) 评论(0) 推荐(0)
摘要: 创建scrapy项目 scrapy startproject first_scrapy cmd命令切换目录到first_scrapy cd first_scrapy 创建爬虫文件 scrapy genspider first_crawl www.web.com cmd命令切换目录到first_cra 阅读全文
posted @ 2020-07-27 10:36 bibicode 阅读(97) 评论(0) 推荐(0)
摘要: 表结构 from django.db import models class Menu(models.Model): """ 菜单 """ title = models.CharField(verbose_name='菜单', max_length=32) icon = models.CharFie 阅读全文
posted @ 2020-07-18 00:00 bibicode 阅读(101) 评论(0) 推荐(0)
摘要: 以下演示collection是集合名 以key为基准去重查看 db.collection.distinct("keyname") 查询命令 等于 db.collection.find({"name": "jack"}) 小于 查询小于10的数据 db.collection.find({"count" 阅读全文
posted @ 2020-07-09 09:30 bibicode 阅读(154) 评论(0) 推荐(0)
摘要: 如何实现分布式? 安装一个scrapy-redis的组件 原生的scrapy是不可以实现分布式爬虫,必须要让scrapy结合着scrapy-redis组件一起实现分布式 为什么原生的scrapy不可以实现分布式? 调度器不可以被分布式集群共享 管道不可以被分布式集群共享 scrapy-redis组件 阅读全文
posted @ 2020-07-05 16:47 bibicode 阅读(150) 评论(0) 推荐(0)
摘要: 创建crawlspider scrapy genspider -t crawl crawlall www.xxx.com 打开crawlall.py import scrapy from scrapy.linkextractors import LinkExtractor # LinkExtract 阅读全文
posted @ 2020-07-05 11:06 bibicode 阅读(421) 评论(0) 推荐(0)
摘要: 基于普通的管道类,我们可以实现字符串的保存。 爬取图片也可以用普通的管道类自己写open(),fp.write(img)这也没什么难的, 但scrapy已经给我们提供了一些好用的用于处理图片的类,我们只要重写这些方法就好了 新建一个scrapy项目 scrapy startproject imgsp 阅读全文
posted @ 2020-06-27 21:59 bibicode 阅读(157) 评论(0) 推荐(0)
上一页 1 ··· 4 5 6 7 8