摘要: 1、介绍 MongoDB是一个文件型数据库,介于关系型数据库和非关系型数据库之间,他和我们使用的关系型数据库最大的区别就是约束性,可以说文件型数据库几乎不存在约束性,没有主外键约束,没有存储的数据类型约束。 Collection也就是关系型数据库中"表"的概念,Documents就是"数据条目",F 阅读全文
posted @ 2019-03-21 09:37 中杯可乐不加冰 阅读(236) 评论(0) 推荐(0) 编辑
摘要: django在进行数据库操作的时候,读取数据与写数据(增、删、改)可以分别从不同的数据库进行操作。 1. 在配置文件中增加slave数据库的配置 2. 创建数据库操作的路由分发类 在meiduo_mall/utils中创建db_router.py 3. 配置读写分离路由 在配置文件中增加 阅读全文
posted @ 2019-03-19 19:02 中杯可乐不加冰 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 1、scrapy框架是否可以自己实现分布式? 答:不可以。原因有二: 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器) 其二:多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存 阅读全文
posted @ 2019-03-05 20:45 中杯可乐不加冰 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 思考: 当我们在浏览相关网页的时候会发现,某些网站定时会在原有网页数据的基础上更新一批数据,例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么,类似的情景,当我们在爬虫的过程中遇到时,我们是不是需要定时更新程序以便能爬取到网站中最近更新的数据呢? 阅读全文
posted @ 2019-03-05 20:28 中杯可乐不加冰 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 一、什么是CrawlSpider? 在学习CrawlSpider之前如果我们想爬取某网站前100页的内容的话,我们可以使用的方法是通过Request模块手动发起请求,递归调用parse方法,写起来非常麻烦,效率不高,CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功 阅读全文
posted @ 2019-03-05 20:17 中杯可乐不加冰 阅读(275) 评论(0) 推荐(0) 编辑
摘要: import scrapy import json class PostSpider(scrapy.Spider): name = 'post' # allowed_domains = ['www.xxx.com'] start_urls = ['https://fanyi.baidu.com/sug'] def start_requests(self): ... 阅读全文
posted @ 2019-03-04 21:55 中杯可乐不加冰 阅读(319) 评论(0) 推荐(0) 编辑
摘要: BOT_NAME 默认: 'scrapybot' 当您使用 startproject 命令创建项目时其也被自动赋值。 BOT_NAME 默认: 'scrapybot' 当您使用 startproject 命令创建项目时其也被自动赋值。 ROBOTSTXT_OBEY = False 是否遵守rebot 阅读全文
posted @ 2019-03-04 21:47 中杯可乐不加冰 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 项目需求:爬取https://www.4567tv.tv/frim/index1.html网站前三页的电影名称和电影的导演名称 项目分析:电影名称在初次发的url返回的response中可以获取,可以通过对url进行字符串拼接的方式动态获取前三页的url,但是导演名称必须点击具体电影的链接地址才可以 阅读全文
posted @ 2019-03-04 21:38 中杯可乐不加冰 阅读(5430) 评论(0) 推荐(0) 编辑
摘要: 一、Scrapy框架简介 Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。 二、Scrap 阅读全文
posted @ 2019-03-04 21:23 中杯可乐不加冰 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 一、redis 终端操作命令: 二、python连接redis 1、redis模块下载 2、python连接redis数据库 第一种方法,直接连接 第二种方法:使用连接池管理连接 redis-py使用connection pool来管理对一个redis server的所有连接,避免每次建立、释放连接 阅读全文
posted @ 2019-03-01 20:44 中杯可乐不加冰 阅读(284) 评论(0) 推荐(0) 编辑