08 2018 档案

摘要:Scrapy框架详解及其基本使用 scrapy框架原理 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amaz 阅读全文
posted @ 2018-08-16 09:47 达尔文在思考 阅读(321) 评论(0) 推荐(0)
摘要:利用selenium+PyQuery实现淘宝美食数据搜集并保存至MongeDB 目标站点分析 目标站点分析 淘宝页面信息很复杂的,含有各种请求参数和加密参数,如果直接请求或者分析Ajax请求的话会很繁琐。所以我们可以用Selenium来驱动浏览器模拟点击来爬取淘宝的信息。这样我们只要关系操作,不用关 阅读全文
posted @ 2018-08-14 00:19 达尔文在思考 阅读(565) 评论(0) 推荐(0)
摘要:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集 目标站点分析 今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方法不太一样,对它的抓取需要抓取后台传来的JSON数据, 目标站点分析 今日头条这类的网站制作,从数据 阅读全文
posted @ 2018-08-13 08:15 达尔文在思考 阅读(791) 评论(0) 推荐(0)
摘要:利用Requests+正则表达式爬取猫眼电影top100 目标站点分析 流程框架 爬虫实战 目标站点分析 流程框架 爬虫实战 使用requests库获取top100首页: <!DOCTYPE html> <!--[if IE 8]><html class="ie8"><![endif]--> <!- 阅读全文
posted @ 2018-08-10 10:42 达尔文在思考 阅读(1069) 评论(0) 推荐(0)
摘要:知识点一:Selenium库详解及其基本使用 什么是Selenium 什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid) 阅读全文
posted @ 2018-08-09 17:38 达尔文在思考 阅读(1845) 评论(0) 推荐(1)
摘要:知识点一:PyQuery库详解及其基本使用 初始化 初始化 字符串初始化 <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a>&lt;&gt;/li </li><li cl 阅读全文
posted @ 2018-08-09 10:05 达尔文在思考 阅读(927) 评论(0) 推荐(0)
摘要:知识点一:BeautifulSoup库详解及其基本使用方法 什么是BeautifulSoup 什么是BeautifulSoup 灵活又方便的网页解析库,处理高效,支持多种解析器。利用它不用编写正则表达式即可方便实现网页信息的提取库。 BeautifulSoup中常见的解析库 BeautifulSou 阅读全文
posted @ 2018-08-08 19:58 达尔文在思考 阅读(323) 评论(0) 推荐(0)
摘要:知识点一:正则表达式详解及其基本使用方法 什么是正则表达式 什么是正则表达式 正则表达式对子符串操作的一种逻辑公式,就是事先定义好的一些特定字符、及这些特定字符的组合,组成一个‘规则字符串’,这个‘规则字符串’用来表达对字符串的一种过滤逻辑。 (非Python独有,re模块实现) 测试正则表达式的网 阅读全文
posted @ 2018-08-08 09:35 达尔文在思考 阅读(426) 评论(0) 推荐(0)
摘要:知识点一:Requests的详解及其基本使用方法 什么是requests库 什么是requests库 Requests库是用Python编写的,基于urllib,采用Apache2 Licensed开源协议的HTTP库,相比urllib库,Requests库更加方便,可以节约我们大量的工作,完全满足 阅读全文
posted @ 2018-08-07 16:08 达尔文在思考 阅读(2121) 评论(0) 推荐(0)