随笔分类 -  spider

摘要:1. mongodb的索引 知识点 掌握mongodb索引的创建,删除操作 掌握mongodb查看索引的方法 掌握mongodb创建联合索引的方法 掌握mongodb创建唯一索引的方法 1.1 为什么mongdb需要创建索引 加快查询速度 进行数据的去重 1.2 mongodb创建简单的索引方法 语 阅读全文
posted @ 2018-08-13 22:12 __wu__yc 阅读(148) 评论(0) 推荐(0)
摘要:1. mongodb的聚合是什么 聚合(aggregate)是基于数据处理的聚合管道,每个文档通过一个由多个阶段(stage)组成的管道,可以对每个阶段的管道进行分组、过滤等功能,然后经过一系列的处理,输出相应的结果。 语法:db.集合名称.aggregate({管道:{表达式}}) 2. mong 阅读全文
posted @ 2018-08-13 22:06 __wu__yc 阅读(350) 评论(0) 推荐(0)
摘要:mongodb的介绍和安装 1. nosql的介绍 “NoSQL”⼀词最早于1998年被⽤于⼀个轻量级的关系数据库的名字 随着web2.0的快速发展, NoSQL概念在2009年被提了出来 NoSQL在2010年⻛⽣⽔起, 现在国内外众多⼤⼩⽹站, 如facebook、 google、 淘宝、 京东 阅读全文
posted @ 2018-08-13 21:46 __wu__yc 阅读(314) 评论(0) 推荐(0)
摘要:常见的反爬手段和解决思路 常见的反爬手段和解决思路 目标 了解常用的反爬手段和解决思路 1. 明确反反爬的主要思路 反反爬的主要思路就是:尽可能的去模拟浏览器,浏览器在如何操作,代码中就如何去实现。浏览器先请求了地址url1,保留了cookie在本地,之后请求地址url2,带上了之前的cookie, 阅读全文
posted @ 2018-08-13 21:34 __wu__yc 阅读(312) 评论(0) 推荐(0)
摘要:1.多线程的方法使用 在python3中,主线程主进程结束,子线程,子进程不会结束 为了能够让主线程回收子线程,可以把子线程设置为守护线程,即该线程不重要,主线程结束,子线程结束. 2.队列模块的使用 3.多线程实现思路剖析 代码如下: 多进程程的方法使用 多进程中队列的使用 多进程中使用普通的队列 阅读全文
posted @ 2018-08-07 23:15 __wu__yc 阅读(189) 评论(0) 推荐(0)
摘要:xpath和lxml类库 1. 为什么要学习xpath和lxml lxml是一款高性能的 Python HTML/XML 解析器,我们可以利用XPath,来快速的定位特定元素以及获取节点信息 2. 什么是xpath XPath (XML Path Language) 是一门在 HTML\XML 文档 阅读全文
posted @ 2018-08-07 22:56 __wu__yc 阅读(7717) 评论(1) 推荐(0)
摘要:1. 什么是正则表达式 用事先定义好的一些特定字符、及这些特定字符的组合,组成一个规则字符串,这个规则字符串用来表达对字符串的一种过滤逻辑. 2. 正则表达式的常见语法 3.re模块的常见方法 re.match(从头找一个) re.search(从整个字符串找,找出一个) re.findall(找出 阅读全文
posted @ 2018-08-07 22:10 __wu__yc 阅读(34734) 评论(0) 推荐(0)
摘要:数据提取的概念和数据的分类 1. 什么是数据提取 简单的来说,数据提取就是从响应中获取我们想要的数据的过程 2. 爬虫中数据的分类 结构化数据:json,xml等 处理方式:直接转化为python类型 非结构化数据:HTML 处理方式:正则表达式、xpath 数据提取之json 1.为什么要复习js 阅读全文
posted @ 2018-08-01 19:54 __wu__yc 阅读(174) 评论(0) 推荐(0)
摘要:requests模块的入门使用 1. 为什么要重点学习requests模块,而不是urllib requests的底层实现就是urllib requests在python2 和python3中通用,方法完全一样 requests简单易用 Requests能够自动帮助我们解压(gzip压缩的等)网页内 阅读全文
posted @ 2018-08-01 19:42 __wu__yc 阅读(265) 评论(0) 推荐(0)
摘要:1. 什么是爬虫(重点掌握) 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。 原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做. 2.爬虫的分类 通用爬虫:通常指搜索引擎的爬虫 聚焦爬虫:针对特定网站的爬虫 3 阅读全文
posted @ 2018-08-01 11:24 __wu__yc 阅读(168) 评论(0) 推荐(0)