上一页 1 2 3 4 5 6 ··· 9 下一页
摘要: 一、安装 安装包地址:https://www.mongodb.com/download center/enterprise 直接双击安装,不过得选择自定义安装,便于找到你自己的目录位置。 我选择的路径是: 配置环境变量: 启动mongodb服务端: 客户端连接. 每次使用mongodb时,都需要启动 阅读全文
posted @ 2020-03-31 23:09 叶落西南 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 一、多任务简介 1、为什么要使用多任务爬虫? 在大量的url需要请求时,单线程/单进程去爬取,速度太慢,此时cpu不工作,浪费cpu资源。 爬取与写入文件分离,可以规避io操作,增加爬取速度,充分利用cpu。 2、多任务分类 进程:进程是操作资源分配的最小单位,一个运行的程序,至少包括一个进程,进程 阅读全文
posted @ 2020-03-31 00:47 叶落西南 阅读(680) 评论(0) 推荐(0) 编辑
摘要: 一、反爬与反反爬 反爬措施(服务器) 通过客户端请求头字段来判断是不是爬虫。 通过在url中拼接加密字段,一般通过js动态生成。 通过判断一个IP在一个时间段内访问频率。 验证码。 不直接在页面中显示数据,通过js进行数据渲染。 反反爬措施(你) 封装常用请求头,列如:user agent,Refe 阅读全文
posted @ 2020-03-30 00:26 叶落西南 阅读(781) 评论(0) 推荐(0) 编辑
摘要: xpath模块使用 一、什么是xml(百度百科解释如下) 可扩展标记语言,标准通用标记语言的子集,简称XML。是一种用于标记电子文件使其具有结构性的标记语言。 在电子计算机中,标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种的信息比如文章等。它可以用来标记数据、定义数据类型, 阅读全文
posted @ 2020-03-28 15:38 叶落西南 阅读(1057) 评论(0) 推荐(0) 编辑
摘要: 一、正则表达式 1.1、什么是正则 正则表达式(英语:Regular Expression,常简写为regex、regexp或RE),又称正则表示式、正则表示法、规则表达式、常规表示法,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正 阅读全文
posted @ 2020-03-27 17:10 叶落西南 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 一、引入虚拟化的必要性 服务器只有在很多时候处于休眠状态,大概只有5%时间是在工作,工作效率低下,浪费资源 虚拟化前 + 每台主机一个操作系统 + 在同一台主机运行多个应用程序,有时候会产生冲突 + 资源利用率低 + 硬件成本高昂 虚拟化后 打破了操作系统和硬件的相互依赖 通过封装到虚拟机的技术,管 阅读全文
posted @ 2020-03-26 15:34 叶落西南 阅读(541) 评论(0) 推荐(0) 编辑
摘要: 1、cookies和session 1.1、什么是cookie和session? cookie是网站用来辨别用户身份,进行会话跟踪,存储在本地终端上的数据。 session(会话)起来本含义是指有始有终的一系列动作和消息。 在web中,session主要用来在服务器端存储特定用户对象会话所需要的信息 阅读全文
posted @ 2020-03-26 14:51 叶落西南 阅读(517) 评论(0) 推荐(0) 编辑
摘要: 1、安装与简介 Urllib和requests模块是python中发起http请求最常见的模块,但是requests模块使用更加方便简单。 2、GET请求 2.1、格式 2.2、基本使用 2.3、爬取百度贴吧关键字下的所有页面,保存至文件夹中 2.3.1获取全部页面url的两个方法 同一个网站下,很 阅读全文
posted @ 2020-03-24 23:16 叶落西南 阅读(501) 评论(0) 推荐(0) 编辑
摘要: 1、数据的由来 爬虫获取数据 购买数据 免费数据 数据管理咨询公司 2、爬虫定义 通过代码模拟浏览器发送请求,获取响应,提取数据 3、爬虫作用 a、解决冷启动问题。 b、搜索引擎的根基:做搜索引擎少不了爬虫。 c、建立知识图谱,帮助建立机器学习知识图谱。 d、可利用爬取的数据制作比价软件 f、秒杀, 阅读全文
posted @ 2020-03-22 22:08 叶落西南 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 一、什么是NTP NTP(network time protocol),网络时间协议是用来校准计算机时间同步化的一种协议。它可以使计算机对其服务器或者时钟源同步化,可以提供高精准度的时间校正(lan网标准差小于1ms,wan网标准差小于几十ms),且可以由加密确认的方式来防止恶意的协议攻击。端口为 阅读全文
posted @ 2020-03-06 12:31 叶落西南 阅读(567) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 9 下一页