04 2020 档案
摘要:redis发布订阅 发布publish 订阅subscribe Redis 通过 PUBLISH 、 SUBSCRIBE 等命令实现了订阅与发布模式。 举例1: qq群的公告,单个发布者,多个收听者 发布/订阅 实验 发布订阅的命令 PUBLISH channel msg 将信息 message 发
阅读全文
摘要:阅读目录 一,自然语言处理 二,jieba 三,gensim 四,pypinyin 回到顶部 一,自然语言处理 自然语言处理(NLP) :自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科
阅读全文
摘要:Flask最强攻略 - 跟DragonFire学Flask - 第九篇 Flask 中的蓝图(BluePrint) 蓝图,听起来就是一个很宏伟的东西 在Flask中的蓝图 blueprint 也是非常宏伟的 它的作用就是将 功能 与 主服务 分开怎么理解呢? 比如说,你有一个客户管理系统,最开始的时
阅读全文
摘要:ansible基础 阅读目录 一、ansible介绍 二、ansible安装部署 回到顶部 一、ansible介绍 一、ansible简介 Ansible 是一个配置管理和应用部署工具,功能类似于目前业界的配置管理工具 Chef,Puppet,Saltstack。Ansible 是通过 Python
阅读全文
摘要:一个小时学会Git 目录一、版本控制概要 工作区 暂存区 本地仓库 远程仓库1.1、什么是版本控制1.2、常用术语1.3、常见的版本控制器1.4、版本控制分类1.4.1、本地版本控制1.4.2、集中版本控制1.4.3、分布式版本控制1.5、Git与SVN最主要区别二、Git安装与配置2.1、什么是G
阅读全文
摘要:面试题 问题一:如何使用两个队列实现一个栈 import queue class Stack(object): def __init__(self): self.master_queue = queue.Queue() self.minor_queue = queue.Queue() def pus
阅读全文
摘要:一:二分查找算法性质:二分查找法实质上是不断地将有序数据集进行对半分割,并检查每个分区的中间元素 li = [1,2,3,4,5,6,7,8,9] def find(li, item): first_index = 0 end_index = len(li) - 1 while first_inde
阅读全文
摘要:'''一:栈特性:先进后出的数据结构,具有栈顶和栈尾。应用:Stack() 创建一个空的新栈。 它不需要参数,并返回一个空栈。push(item)将一个新项添加到栈的顶部。它需要 item 做参数并不返回任何内容。pop() 从栈中删除顶部项。它不需要参数并返回 item 。栈被修改。peek()
阅读全文
摘要:排序算法一:冒泡排序方法:比较相邻的元素。如果第一个比第二个大,就交换他们两个。对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对。这步做完后,最后的元素会是最大的数。针对所有的元素重复以上的步骤,除了最后一个。持续每次对越来越少的元素重复上面的步骤,直到没有任何一对数字需要比较。时间复杂度
阅读全文
摘要:什么是计算机科学? 首先明确的一点就是计算机科学不仅仅是对计算机的研究,虽然计算机在科学发展的过程中发挥了重大的作用,但是它只是一个工具,一个没有灵魂的工具而已。所谓的计算机科学实际上是对问题、解决问题以及解决问题的过程中产生产生的解决方案的研究。例如给定一个问题,计算机科学家的目标是开发一个算法来
阅读全文
摘要:在scrapy中我们之前爬取的都是基于字符串类型的数据,那么要是基于图片数据的爬取,那又该如何呢? 其实在scrapy中已经为我们封装好了一个专门基于图片请求和持久化存储的管道类ImagesPipeline,那也就是说如果想要基于scrapy实现图片数据的爬取,则可以直接使用该管道类即可。 Imag
阅读全文
摘要:请求传参 在某些情况下,我们爬取的数据不在同一个页面中,例如,我们爬取一个电影网站,电影的名称,评分在一级页面,而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参。 请求传参的使用场景 当我们使用爬虫爬取的数据没有存在于同一张页面的时候,则必须使用请求传参 # -*- coding:
阅读全文
摘要:中间件 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件。 作用:我们主要使用下载中间件处理请求,一般会对请求设置随机的User-Agent ,设置随机的代理。目的在于防止爬取网站的反爬虫策略。 (1)引擎将请求传递给下载器过程中, 下载中间件可
阅读全文
摘要:全站数据爬取 大部分的网站展示的数据都进行了分页操作,那么将所有页码对应的页面数据进行爬取就是爬虫中的全站数据爬取。 基于scrapy如何进行全站数据爬取呢? 将每一个页码对应的url存放到爬虫文件的起始url列表(start_urls)中。(不推荐) 使用Request方法手动发起请求。(勉强)
阅读全文
摘要:scrapy的高性能持久化存储操作 基于终端指令的持久化存储 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。 import scrapy class QiubaiSpider(scrapy.Spider)
阅读全文
摘要:引入 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取
阅读全文
摘要:scrapy初识 什么是框架? 所谓的框架简单通用解释就是就是一个具有很强通用性并且集成了很多功能的项目模板,该模板可被应用在不同的项目需求中。也可被视为是一个项目的半成品。 如何学习框架? 对于刚接触编程或者初级程序员来讲,对于一个新的框架,只需要掌握该框架的作用及其各个功能的使用和应用即可,对于
阅读全文
摘要:在创建了独立应用(自包含该应用的依赖包)之后,还可以使用 PyInstaller 将 Python 程序生成可直接运行的程序,这个程序就可以被分发到对应的 Windows 或 Mac OS X 平台上运行。 安装 PyInstalle Python 默认并不包含 PyInstaller 模块,因此需
阅读全文
摘要:selenium模块基本使用 阅读量: 2090 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果
阅读全文

浙公网安备 33010602011771号