07 2019 档案

摘要:通用爬虫 通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。 不扯没用的,上干货! 创建项目: cmd 命令: scrapy startproject 项目名 创建 阅读全文
posted @ 2019-07-04 19:43 老凯—RGZN 阅读(698) 评论(1) 推荐(0)
摘要:Linux下环境变量设置 1、在Windows 系统下,很多软件安装都需要配置环境变量,比如 安装 jdk ,如果不配置环境变量,在非软件安装的目录下运行javac 命令,将会报告找不到文件,类似的错误。 2、那么什么是环境变量?简单说,就是指定一个目录,运行软件的时候,相关的程序将会按照该目录寻找 阅读全文
posted @ 2019-07-04 15:47 老凯—RGZN 阅读(1657) 评论(0) 推荐(0)
摘要:首先来了解下什么是MongoDB ? MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。 在高负载的情况下,添加更多的节点,可以保证服务器性能。 MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB 将数据存储为一个文档,数据结构由键值( 阅读全文
posted @ 2019-07-03 10:42 老凯—RGZN 阅读(1166) 评论(0) 推荐(0)
摘要:暂停和恢复爬虫初学者最头疼的事情就是没有处理好异常,当爬虫爬到一半的时候突然因为错误而中断了,但是这时又不能从中断的地方开始继续爬,顿时感觉心里日了狗,但是这里有一个方法可以暂时的存储你爬的状态,当爬虫中断的时候继续打开后依然可以从中断的地方爬,不过虽说持久化可以有效的处理,但是要注意的是当使用co 阅读全文
posted @ 2019-07-03 08:31 老凯—RGZN 阅读(2971) 评论(0) 推荐(0)
摘要:redis 定义: redis是开源的,内存数据库,可以用于数据库缓存和消息中间件,支持多种数据类型,字符串,哈希,列表,集合,有序集合等 定义: redis是开源的,内存数据库,可以用于数据库缓存和消息中间件,支持多种数据类型,字符串,哈希,列表,集合,有序集合等 redis是开源的,内存数据库, 阅读全文
posted @ 2019-07-02 20:37 老凯—RGZN 阅读(162) 评论(0) 推荐(0)
摘要:机器学习 什么是机器学习? 机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测 机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测 机器学习存在的目的和价值领域? 领域: 医疗、航空、教育、物流、电商 等。。。 目的: 让机器学习程序替换手动的步骤,减少企 阅读全文
posted @ 2019-07-02 10:14 老凯—RGZN 阅读(356) 评论(0) 推荐(0)
摘要:scrapyd部署爬虫 1.编写爬虫2.部署环境pip install scrapyd pip install scrapyd-client 启动scrapyd的服务:cmd:>scrapyd(必须处于开启状态)在爬虫根目录执行:scrapyd-deploy,如果提示不是内部命令,需要修改配置文件。 阅读全文
posted @ 2019-07-02 10:05 老凯—RGZN 阅读(1066) 评论(1) 推荐(0)