随笔档案「2020年4月」 - y0um

Redis进阶概述

摘要：redis发布订阅发布publish 订阅subscribe Redis 通过 PUBLISH 、 SUBSCRIBE 等命令实现了订阅与发布模式。举例1： qq群的公告，单个发布者，多个收听者发布/订阅实验发布订阅的命令 PUBLISH channel msg 将信息 message 发阅读全文

posted @ 2020-04-25 17:30 y0um 阅读(223) 评论(0) 推荐(0)

自然语言处理之jieba, gensim模块

摘要：阅读目录一，自然语言处理二，jieba 三，gensim 四，pypinyin 回到顶部一，自然语言处理自然语言处理(NLP) :自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科阅读全文

posted @ 2020-04-25 17:28 y0um 阅读(418) 评论(0) 推荐(0)

flask 蓝图

摘要：Flask最强攻略 - 跟DragonFire学Flask - 第九篇 Flask 中的蓝图(BluePrint) 蓝图,听起来就是一个很宏伟的东西在Flask中的蓝图 blueprint 也是非常宏伟的它的作用就是将功能与主服务分开怎么理解呢? 比如说,你有一个客户管理系统,最开始的时阅读全文

posted @ 2020-04-25 17:27 y0um 阅读(480) 评论(0) 推荐(0)

Ansible基础

摘要：ansible基础阅读目录一、ansible介绍二、ansible安装部署回到顶部一、ansible介绍一、ansible简介 Ansible 是一个配置管理和应用部署工具，功能类似于目前业界的配置管理工具 Chef,Puppet,Saltstack。Ansible 是通过 Python 阅读全文

posted @ 2020-04-25 17:11 y0um 阅读(232) 评论(0) 推荐(0)

git完整教程

摘要：一个小时学会Git 目录一、版本控制概要工作区暂存区本地仓库远程仓库1.1、什么是版本控制1.2、常用术语1.3、常见的版本控制器1.4、版本控制分类1.4.1、本地版本控制1.4.2、集中版本控制1.4.3、分布式版本控制1.5、Git与SVN最主要区别二、Git安装与配置2.1、什么是G 阅读全文

posted @ 2020-04-25 17:09 y0um 阅读(538) 评论(0) 推荐(0)

经典算法题

摘要：面试题问题一：如何使用两个队列实现一个栈 import queue class Stack(object): def __init__(self): self.master_queue = queue.Queue() self.minor_queue = queue.Queue() def pus 阅读全文

posted @ 2020-04-25 12:30 y0um 阅读(165) 评论(0) 推荐(0)

基础查找算法

摘要：一：二分查找算法性质：二分查找法实质上是不断地将有序数据集进行对半分割，并检查每个分区的中间元素 li = [1,2,3,4,5,6,7,8,9] def find(li, item): first_index = 0 end_index = len(li) - 1 while first_inde 阅读全文

posted @ 2020-04-17 11:32 y0um 阅读(239) 评论(0) 推荐(0)

基础数据结构(链表+队列等)

摘要：'''一：栈特性：先进后出的数据结构,具有栈顶和栈尾。应用：Stack() 创建一个空的新栈。它不需要参数，并返回一个空栈。push(item)将一个新项添加到栈的顶部。它需要 item 做参数并不返回任何内容。pop() 从栈中删除顶部项。它不需要参数并返回 item 。栈被修改。peek() 阅读全文

posted @ 2020-04-17 10:45 y0um 阅读(132) 评论(0) 推荐(0)

基础五大排序算法(冒泡+排序+插入+希尔+快速)简述

摘要：排序算法一：冒泡排序方法：比较相邻的元素。如果第一个比第二个大，就交换他们两个。对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。这步做完后，最后的元素会是最大的数。针对所有的元素重复以上的步骤，除了最后一个。持续每次对越来越少的元素重复上面的步骤，直到没有任何一对数字需要比较。时间复杂度阅读全文

posted @ 2020-04-17 10:37 y0um 阅读(632) 评论(0) 推荐(0)

介绍：算法+数据结构

摘要：什么是计算机科学？首先明确的一点就是计算机科学不仅仅是对计算机的研究，虽然计算机在科学发展的过程中发挥了重大的作用，但是它只是一个工具，一个没有灵魂的工具而已。所谓的计算机科学实际上是对问题、解决问题以及解决问题的过程中产生产生的解决方案的研究。例如给定一个问题，计算机科学家的目标是开发一个算法来阅读全文

posted @ 2020-04-12 13:30 y0um 阅读(280) 评论(0) 推荐(0)

Scrapy图片数据爬取-基于文件下载的管道类

摘要：在scrapy中我们之前爬取的都是基于字符串类型的数据，那么要是基于图片数据的爬取，那又该如何呢？其实在scrapy中已经为我们封装好了一个专门基于图片请求和持久化存储的管道类ImagesPipeline，那也就是说如果想要基于scrapy实现图片数据的爬取，则可以直接使用该管道类即可。 Imag 阅读全文

posted @ 2020-04-06 18:19 y0um 阅读(387) 评论(0) 推荐(0)

Scrapy框架之-请求传参与post请求处理

摘要：请求传参在某些情况下，我们爬取的数据不在同一个页面中，例如，我们爬取一个电影网站，电影的名称，评分在一级页面，而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参。请求传参的使用场景当我们使用爬虫爬取的数据没有存在于同一张页面的时候，则必须使用请求传参 # -*- coding: 阅读全文

posted @ 2020-04-06 18:14 y0um 阅读(698) 评论(0) 推荐(0)

Scrapy框架-中间件和五大核心组件

摘要：中间件下载中间件（Downloader Middlewares）位于scrapy引擎和下载器之间的一层组件。作用：我们主要使用下载中间件处理请求，一般会对请求设置随机的User-Agent ，设置随机的代理。目的在于防止爬取网站的反爬虫策略。（1）引擎将请求传递给下载器过程中，下载中间件可阅读全文

posted @ 2020-04-06 17:59 y0um 阅读(473) 评论(0) 推荐(0)

Scrapy框架-对分页使用链接提取器CrawlSpider爬取每页的数据

摘要：全站数据爬取大部分的网站展示的数据都进行了分页操作，那么将所有页码对应的页面数据进行爬取就是爬虫中的全站数据爬取。基于scrapy如何进行全站数据爬取呢？将每一个页码对应的url存放到爬虫文件的起始url列表（start_urls）中。（不推荐）使用Request方法手动发起请求。（勉强）阅读全文

posted @ 2020-04-06 17:43 y0um 阅读(842) 评论(0) 推荐(0)

Scrapy框架-数据持久化存储

摘要：scrapy的高性能持久化存储操作基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象（通常为列表or字典）的返回，该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。 import scrapy class QiubaiSpider(scrapy.Spider) 阅读全文

posted @ 2020-04-06 15:38 y0um 阅读(405) 评论(0) 推荐(0)

Scrapy框架-自动化selenium的应用与提高爬虫效率配置

摘要：引入在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取阅读全文

posted @ 2020-04-06 15:34 y0um 阅读(906) 评论(0) 推荐(0)

Scrapy框架-基础

摘要：scrapy初识什么是框架？所谓的框架简单通用解释就是就是一个具有很强通用性并且集成了很多功能的项目模板，该模板可被应用在不同的项目需求中。也可被视为是一个项目的半成品。如何学习框架？对于刚接触编程或者初级程序员来讲，对于一个新的框架，只需要掌握该框架的作用及其各个功能的使用和应用即可，对于阅读全文

posted @ 2020-04-03 14:17 y0um 阅读(111) 评论(0) 推荐(0)

Python PyInstaller安装和使用教程（详解版）

摘要：在创建了独立应用（自包含该应用的依赖包）之后，还可以使用 PyInstaller 将 Python 程序生成可直接运行的程序，这个程序就可以被分发到对应的 Windows 或 Mac OS X 平台上运行。安装 PyInstalle Python 默认并不包含 PyInstaller 模块，因此需阅读全文

posted @ 2020-04-02 19:11 y0um 阅读(49228) 评论(0) 推荐(1)

Python自动化测试之selenuim模块使用

摘要：selenium模块基本使用阅读量: 2090 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果阅读全文

posted @ 2020-04-02 18:58 y0um 阅读(468) 评论(0) 推荐(0)

Cou1d

04 2020 档案

公告