随笔档案「2019年7月」 - 老凯—RGZN

CrawlSpider ---> 通用爬虫项目流程

摘要：通用爬虫通用网络爬虫从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引从而提供支持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。不扯没用的，上干货！创建项目： cmd 命令： scrapy startproject 项目名创建阅读全文

posted @ 2019-07-04 19:43 老凯—RGZN 阅读(698) 评论(1) 推荐(0)

linux 、 CentOs ---> 环境变量设置

摘要：Linux下环境变量设置 1、在Windows 系统下，很多软件安装都需要配置环境变量，比如安装 jdk ，如果不配置环境变量，在非软件安装的目录下运行javac 命令，将会报告找不到文件，类似的错误。 2、那么什么是环境变量？简单说，就是指定一个目录，运行软件的时候，相关的程序将会按照该目录寻找阅读全文

posted @ 2019-07-04 15:47 老凯—RGZN 阅读(1657) 评论(0) 推荐(0)

Mongo db 简单介绍及命令笔记

摘要：首先来了解下什么是MongoDB ? MongoDB 是由C++语言编写的，是一个基于分布式文件存储的开源数据库系统。在高负载的情况下，添加更多的节点，可以保证服务器性能。 MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB 将数据存储为一个文档，数据结构由键值( 阅读全文

posted @ 2019-07-03 10:42 老凯—RGZN 阅读(1166) 评论(0) 推荐(0)

scrapy爬虫框架配置--settings

摘要：暂停和恢复爬虫初学者最头疼的事情就是没有处理好异常，当爬虫爬到一半的时候突然因为错误而中断了，但是这时又不能从中断的地方开始继续爬，顿时感觉心里日了狗，但是这里有一个方法可以暂时的存储你爬的状态，当爬虫中断的时候继续打开后依然可以从中断的地方爬，不过虽说持久化可以有效的处理，但是要注意的是当使用co 阅读全文

posted @ 2019-07-03 08:31 老凯—RGZN 阅读(2971) 评论(0) 推荐(0)

redis 数据操作

摘要：redis 定义： redis是开源的，内存数据库，可以用于数据库缓存和消息中间件，支持多种数据类型，字符串，哈希，列表，集合，有序集合等定义： redis是开源的，内存数据库，可以用于数据库缓存和消息中间件，支持多种数据类型，字符串，哈希，列表，集合，有序集合等 redis是开源的，内存数据库，阅读全文

posted @ 2019-07-02 20:37 老凯—RGZN 阅读(162) 评论(0) 推荐(0)

机器学习三剑客之 pandas + numpy

摘要：机器学习什么是机器学习？机器学习是从数据中自动分析获得规律(模型)，并利用规律对未知数据进行预测机器学习是从数据中自动分析获得规律(模型)，并利用规律对未知数据进行预测机器学习存在的目的和价值领域？领域：医疗、航空、教育、物流、电商等。。。目的：让机器学习程序替换手动的步骤，减少企阅读全文

posted @ 2019-07-02 10:14 老凯—RGZN 阅读(356) 评论(0) 推荐(0)

爬虫部署 --- scrapyd部署爬虫 + Gerapy 管理界面 scrapyd+gerapy部署流程

摘要：scrapyd部署爬虫 1.编写爬虫2.部署环境pip install scrapyd pip install scrapyd-client 启动scrapyd的服务：cmd:>scrapyd（必须处于开启状态）在爬虫根目录执行：scrapyd-deploy,如果提示不是内部命令，需要修改配置文件。阅读全文

posted @ 2019-07-02 10:05 老凯—RGZN 阅读(1066) 评论(1) 推荐(0)

RGZN老凯

07 2019 档案

公告