05 2018 档案
爬虫实战篇(模拟登录)---我们以模拟去哪儿网为例
摘要:(1)、登录实质 互联网上的部分网站需要登录后方能访问,当我们打开网页并登录,就会在客户端生成Cookies(相当于个人身份证)信息,Cookies中包含了SessionId信息,登录后的请求都会带上Cookies发送给服务器,服务器会根据Cookies判断出对应的SessionID,进而找到会话, 阅读全文
posted @ 2018-05-31 11:18 疾风_lu 阅读(7992) 评论(5) 推荐(0)
requests库详解
摘要:1、requests库简介:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html(官网) What is requests? 答:基于urllib库的简单易用的http库 2、安装 pip3 install request 阅读全文
posted @ 2018-05-30 20:08 疾风_lu 阅读(1002) 评论(0) 推荐(0)
爬取拉钩网职位信息写入mongodb数据库(小白学爬虫--实战篇1)
摘要:(1)、环境准备 requests + pymongo 库 (2)、页面分析 首先登录拉钩并输入关键字:爬虫工程师 我们可以发现这些数据都是js加载的 接着打开chrome的开发者工具选项并勾选XHR 我们发现我们需要的信息包含在result中 我们通过观察发现该请求为post请求 最后我们需要模拟 阅读全文
posted @ 2018-05-29 22:56 疾风_lu 阅读(1243) 评论(0) 推荐(0)
Scrapy爬虫框架(实战篇)【Scrapy框架对接Splash抓取javaScript动态渲染页面】
摘要:(1)、前言 动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成 静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送给我们客户端 这里我们可以观察一个典型的供我们练习爬虫技术的网站:quotes.toscrape.c 阅读全文
posted @ 2018-05-23 23:26 疾风_lu 阅读(24270) 评论(3) 推荐(0)
Scrapy爬虫框架第八讲【项目实战篇:知乎用户信息抓取】--本文参考静觅博主所写
摘要:思路分析: (1)选定起始人(即选择关注数和粉丝数较多的人--大V) (2)获取该大V的个人信息 (3)获取关注列表用户信息 (4)获取粉丝列表用户信息 (5)重复(2)(3)(4)步实现全知乎用户爬取 实战演练: (1)、创建项目:scrapy startproject zhijutest (2) 阅读全文
posted @ 2018-05-21 14:26 疾风_lu 阅读(2477) 评论(4) 推荐(2)
Scrapy爬虫框架第七讲【ITEM PIPELINE用法】
摘要:ITEM PIPELINE用法详解: ITEM PIPELINE作用: 清理HTML数据 验证爬取的数据(检查item包含某些字段) 去重(并丢弃)【预防数据去重,真正去重是在url,即请求阶段做】 将爬取结果保存到数据库中 ITEM PIPELINE核心方法(4个) (1)、open_spider 阅读全文
posted @ 2018-05-18 23:04 疾风_lu 阅读(6086) 评论(0) 推荐(0)
Scrapy爬虫框架第五讲(linux环境)【download middleware用法】
摘要:DOWNLOAD MIDDLEWRE用法详解 通过上面的Scrapy工作架构我们对其功能进行下总结: (1)、在Scheduler调度出队列时的Request送给downloader下载前对其进行修改 (2)、在下载生成后的Response发送给Spider并在Spider对其解析之前对其修改 【这 阅读全文
posted @ 2018-05-17 16:31 疾风_lu 阅读(2421) 评论(0) 推荐(0)
Windows下Scrapy框架的安装
摘要:总纲:(建议小伙伴们开启系统代理,代理最好选国外) 1、安装wheel pip install wheel 2、安装lxml http:www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 3、安装PyOpenssl https://pypi.python.org/pyp 阅读全文
posted @ 2018-05-16 23:03 疾风_lu 阅读(327) 评论(0) 推荐(0)
Scrapy爬虫框架补充内容三(代理及其基本原理介绍)
摘要:前言:(本文参考维基百科及百度百科所写) 当我们使用爬虫抓取数据时,有时会产生错误比如:突然跳出来了403 Forbidden 或者网页上出现以下提示:您的ip访问频率太高 或者时不时跳出一个验证码需要你输入,这是由于网站采取了反爬虫措施:服务器会检查某个固定的ip在单位时间内请求的次数,如果发现请 阅读全文
posted @ 2018-05-15 18:44 疾风_lu 阅读(1062) 评论(0) 推荐(0)
Scrapy爬虫框架第四讲(Linux环境)【Selector的使用】
摘要:下面我们来学习Selector的具体使用:(参考文档:http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/selectors.html) Selector简介:Scrapy框架提供了自己的一套数据提取方法即Selector(选择器),它是基于lxml构 阅读全文
posted @ 2018-05-14 14:08 疾风_lu 阅读(831) 评论(0) 推荐(0)
Scrapy爬虫框架补充内容一(Linux环境)【Scrapy爬虫框架结构及工作原理】
摘要:Scrapy爬虫框架结构及工作原理详解 scrapy框架的框架结构如下: 组件分析: ENGINE:(核心):处理整个框架的数据流,各个组件在其控制下协同工作 SCHEDULER(调度器):负责接收引擎发送来的请求,并压入队列,在引擎再次请求时返回 SPIDER(蜘蛛):负责从网页中提取指定的信息, 阅读全文
posted @ 2018-05-13 23:25 疾风_lu 阅读(620) 评论(0) 推荐(0)
Scrapy爬虫框架第三讲(linux环境)【Spider的使用】
摘要:下面我们来学习下Spider的具体使用: 我们已上节的百度阅读爬虫为例来进行分析: 1、继承scrap.Spider 摘自官方文档 意思如下:scrapy框架为我们提供了一个Spider基类,我们编写的spider要继承它,如上面我们编写了一个BookSpider类,而这个类是继承于scrapy.S 阅读全文
posted @ 2018-05-13 16:32 疾风_lu 阅读(942) 评论(0) 推荐(0)
Scrapy爬虫框架第二讲(Linux环境)【初识Scrapy框架】
摘要:在系统学习Scrapy前我们首先在看一个实际的项目,从宏观上把握下Scrapy爬虫框架的流程(填空题训练开始了,小伙伴们准备好了吗?): 这里我选取了百度阅读,我们来爬取所有新书榜的书单包括其书名;评分;出版商;价格信息 /目标站点:https://yuedu.baidu.com/rank/newb 阅读全文
posted @ 2018-05-12 16:26 疾风_lu 阅读(660) 评论(0) 推荐(0)
Scrapy爬虫框架第一讲(Linux环境)【Scrapy简介及安装】
摘要:1、What is Scrapy? 答:Scrapy是一个使用python语言(基于Twistec框架)编写的开源网络爬虫框架,其结构清晰、模块之间的耦合程度低,具有较强的扩张性,能满足各种需求。(前面我们介绍了使用requests、beautifulsoup、selenium等相当于你写作文题,主 阅读全文
posted @ 2018-05-12 15:44 疾风_lu 阅读(2904) 评论(0) 推荐(0)
PyQuery详解
摘要:1、What is Pyquery? 答:灵活强大的网页解析库 2、安装: pip3 install pyquery 3、基本使用 初始化操作: 前言:在介绍之前小伙伴们我们先来了解下CSS的基本语法:http://www.w3school.com.cn/cssref/css_selectors.a 阅读全文
posted @ 2018-05-11 14:30 疾风_lu 阅读(368) 评论(0) 推荐(0)
爬虫原理分析
摘要:1、什么是爬虫? 答:请求网站并提取数据的自动化程序 2、爬虫的基本流程 (1)、发送请求: 通过Http库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应 (2)、获取响应内容 如服务器正常响应,即返回一个Response对象,其内容即为所要获取 阅读全文
posted @ 2018-05-10 22:15 疾风_lu 阅读(827) 评论(0) 推荐(0)
Ajax详解
摘要:前言: 有时我们在使用requests抓取数据时得到的返回结果会与浏览器中看到的内容不一致,这是因为requests只能得到原始的HTML文挡,而浏览器的页面是通过javascript处理数据后生成的,这些数据的来源可能是Ajax加载的;可能是包含在HTML文档中的,也有可能是javascript+ 阅读全文
posted @ 2018-05-09 23:38 疾风_lu 阅读(451) 评论(0) 推荐(1)
BuautifulSoup4库详解
摘要:1、BeautifulSoup4库简介 What is beautifulsoup ? 答:一个可以用来从HTML 和 XML中提取数据的网页解析库,支持多种解析器(代替正则的复杂用法) 2、安装 pip3 install beautifulsoup4 3、用法详解 (1)、解析器性能分析(第一个参 阅读全文
posted @ 2018-05-07 16:47 疾风_lu 阅读(639) 评论(0) 推荐(0)
利用selenium爬取淘宝美食内容
摘要:1、启动pycharm 首先咱们新建一个项目名字大家可以自己设定 接着新建一个spider.p文件 运行结果: 小伙伴们可是将其中的美食字样该为其他想要获取的淘宝商品数据尝试运行下,是不是挺有意思的,哈哈! 阅读全文
posted @ 2018-05-06 23:00 疾风_lu 阅读(451) 评论(0) 推荐(0)
windows下mongodb安装详解
摘要:1、打开官网https://www.mongodb.com/download-center?jmp=nav#community 注:这里小伙伴们可是开启下FQ软件psiphon 3下载(不开启FQ好像出不来下载界面,我也搞不懂怎么回事!) 2、打开安装包一路默认但将其中的install the co 阅读全文
posted @ 2018-05-06 15:38 疾风_lu 阅读(302) 评论(0) 推荐(0)
python3 数据科学基础(第一章)
摘要:第一章 1、Anaconda(最著名的python数据科学平台) 下面小伙伴们咱们来初初识下Anaconda吧 What is Anaconda???? 回答: (1)、科学计算的平台 (2)、有很多方便的包可供咱们使用 (3)、跨平台:Mac \Linux\Windows (4)、最重要的是:开源 阅读全文
posted @ 2018-05-06 11:17 疾风_lu 阅读(237) 评论(0) 推荐(0)
windows下mysql安装详解
摘要:1、百度一下:mysql 2、运行安装包(小伙伴们一路默认即可) 、 设置下密码: 3、打开计算机管理查看mysql服务是否开启 4、安装mysql-front(mysql 可视化工具) 百度一下mysql-front 一路默认到 单击打开进去mysql 可视化界面(小伙伴们可以操作了) 阅读全文
posted @ 2018-05-04 14:57 疾风_lu 阅读(281) 评论(0) 推荐(0)
(python3爬虫实战-第一篇)利用requests+正则抓取猫眼电影热映口碑榜
摘要:部分运行效果图: 阅读全文
posted @ 2018-05-02 20:54 疾风_lu 阅读(341) 评论(0) 推荐(0)