上一页 1 2 3 4 5 6 7 8 ··· 15 下一页
摘要: "18.增量式爬虫" 增量式爬虫 引言: ​ 当我们在浏览相关网页的时候会发现,某些网站定时会在原有网页数据的基础上更新一批数据,例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么,类似的情景,当我们在爬虫的过程中遇到时,我们是不是需要定时更新程 阅读全文
posted @ 2019-02-15 09:00 云丛 阅读(5797) 评论(0) 推荐(0) 编辑
摘要: 一 scrapy框架简介 1 介绍 (1) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框 阅读全文
posted @ 2019-01-29 12:51 云丛 阅读(259) 评论(0) 推荐(0) 编辑
摘要: Mongodb安装 deppin 15.9安装mongodb 1. 导入密匙 2. 创建源列表 注意:版本需要自己注意, 3. 跟新apt get源 4. 安装Mongdb 5. 这样安装时,日志文件位置在 ,配置文件位置在 下,我们也可以进行定制 6. 启动/停止 服务端 7. 连接服务端 阅读全文
posted @ 2019-01-24 21:51 云丛 阅读(161) 评论(0) 推荐(0) 编辑
摘要: mongodb mongo简介 简介 MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似js 阅读全文
posted @ 2019-01-24 21:46 云丛 阅读(438) 评论(0) 推荐(0) 编辑
摘要:   爬虫目录 爬虫简介与requests模块 爬虫数据解析的三种方式 爬虫之selenium模块 Mongodb安装 爬虫之Mongodb模块 爬虫之scrapy框架 爬虫之增量式爬虫   阅读全文
posted @ 2019-01-24 09:52 云丛 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 一 selenium模块 什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作。 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 seleni 阅读全文
posted @ 2019-01-24 09:49 云丛 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 爬虫简介与requests模块 一 爬虫简介 概述 网络爬虫是一种按照一定规则,通过网页的链接地址来寻找网页的,从网站某一个页面(通常是首页)开始,读取网页的内容,找到网页中的其他链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止 爬虫的价值 互联网 阅读全文
posted @ 2019-01-24 09:45 云丛 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 爬虫数据解析的三方式 一.正则表达式解析 常用正则表达式回顾: 二 Xpath解析 XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线。 测试页面数据 常用xpath表达 阅读全文
posted @ 2019-01-24 09:42 云丛 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 操作系统线程理论 线程概念的引入背景 进程 之前我们已经了解了操作系统中进程的概念,程序并不能单独运行,只有将程序装载到内存中,系统为它分配资源才能运行,而这种执行的程序就称之为进程。程序和进程的区别就在于:程序是指令的集合,它是进程运行的静态描述文本;进程是程序的一次执行活动,属于动态概念。在多道 阅读全文
posted @ 2019-01-23 10:18 云丛 阅读(136) 评论(0) 推荐(0) 编辑
摘要: salt介绍 saltstack是由thomas Hatch于2011年创建的一个开源项目,设计初衷是为了实现一个快速的远程执行系统。 salt强大吗 系统管理员日常会进行大量的重复性操作,例如安装软件,修改配置文件,创建用户,批量执行命令等等。如果主机数量庞大,单靠人工维护实在让人难以忍受。 早期 阅读全文
posted @ 2019-01-19 23:37 云丛 阅读(171) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 15 下一页