bibicode - 博客园

2020年7月27日

摘要： scrapy框架中已经为我们专门集成好了高效、便捷的持久化操作功能，我们直接使用即可。这两个组件配合爬虫文件实现数据持久化 items.py：数据结构模板文件。定义数据属性。 pipelines.py：管道文件。接收数据（items），进行持久化操作。持久化流程： 1.爬虫文件爬取到数据后，需要阅读全文

posted @ 2020-07-27 14:01 bibicode 阅读(629) 评论(0) 推荐(0)

scrapy 基于终端指令的持久化处理

摘要：爬取糗事百科首页，把标题和作者写入到本地文件创建糗事百科爬虫 scrapy genspider qiushi https://www.qiushibaike.com/ qiushi.py代码 import scrapy class QiushiSpider(scrapy.Spider): name 阅读全文

posted @ 2020-07-27 11:29 bibicode 阅读(138) 评论(0) 推荐(0)

scrapy简单使用

摘要：创建scrapy项目 scrapy startproject first_scrapy cmd命令切换目录到first_scrapy cd first_scrapy 创建爬虫文件 scrapy genspider first_crawl www.web.com cmd命令切换目录到first_cra 阅读全文

posted @ 2020-07-27 10:36 bibicode 阅读(99) 评论(0) 推荐(0)

2020年7月18日

默认展开非菜单URL

摘要：表结构 from django.db import models class Menu(models.Model): """ 菜单 """ title = models.CharField(verbose_name='菜单', max_length=32) icon = models.CharFie 阅读全文

posted @ 2020-07-18 00:00 bibicode 阅读(102) 评论(0) 推荐(0)

2020年7月9日

经常使用的mongodb命令

摘要：以下演示collection是集合名以key为基准去重查看 db.collection.distinct("keyname") 查询命令等于 db.collection.find({"name": "jack"}) 小于查询小于10的数据 db.collection.find({"count" 阅读全文

posted @ 2020-07-09 09:30 bibicode 阅读(160) 评论(0) 推荐(0)

2020年7月5日

分布式爬虫部署基于scrapy和scrapy-redis

摘要：如何实现分布式？安装一个scrapy-redis的组件原生的scrapy是不可以实现分布式爬虫，必须要让scrapy结合着scrapy-redis组件一起实现分布式为什么原生的scrapy不可以实现分布式？调度器不可以被分布式集群共享管道不可以被分布式集群共享 scrapy-redis组件阅读全文

posted @ 2020-07-05 16:47 bibicode 阅读(150) 评论(0) 推荐(0)

crawlspider 全站数据爬取之LinkExtractor,Rule

摘要：创建crawlspider scrapy genspider -t crawl crawlall www.xxx.com 打开crawlall.py import scrapy from scrapy.linkextractors import LinkExtractor # LinkExtract 阅读全文

posted @ 2020-07-05 11:06 bibicode 阅读(431) 评论(0) 推荐(0)

2020年6月27日

scrapy图片爬取

摘要：基于普通的管道类，我们可以实现字符串的保存。爬取图片也可以用普通的管道类自己写open(),fp.write(img)这也没什么难的，但scrapy已经给我们提供了一些好用的用于处理图片的类，我们只要重写这些方法就好了新建一个scrapy项目 scrapy startproject imgsp 阅读全文

posted @ 2020-06-27 21:59 bibicode 阅读(158) 评论(0) 推荐(0)