随笔分类 -  爬虫

摘要:一.scrapy框架基于CrawlSpider的全站数据爬取 1.使用 1.创建scrapy工程:scrapy startproject projectName 2.创建爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com 生成的爬虫文件 Lin 阅读全文
posted @ 2019-03-05 19:59 Montant 阅读(572) 评论(0) 推荐(0)
摘要:一.scrapy的核心组件 五大核心组件工作流程: 引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来 阅读全文
posted @ 2019-03-04 16:30 Montant 阅读(571) 评论(0) 推荐(0)
摘要:1.Fiddler的概念 Fiddler是位于客户端和服务器端的HTTP代理,也是目前最常用的http抓包工具之一 。 它能够记录客户端和服务器之间的所有 HTTP请求,可以针对特定的HTTP请求,分析请求数据、设置断点、调试web应用、修改请求的数据,甚至可以修改服务器返回的数据,功能非常强大,是 阅读全文
posted @ 2019-03-01 17:38 Montant 阅读(141) 评论(0) 推荐(0)
摘要:一.Scrapy框架的基础应用 1.Scrapy的概念 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。 2.安装 windows: Linux: 阅读全文
posted @ 2019-03-01 16:52 Montant 阅读(183) 评论(0) 推荐(0)
摘要:一.验证码处理 1.云打码平台处理验证码的实现流程: 示例: 模拟登录古诗文网 二.图片懒加载,selenium,PhantomJS 1.图片懒加载的概念: 图片懒加载是一种网页优化技术。图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大 阅读全文
posted @ 2019-02-28 19:54 Montant 阅读(850) 评论(0) 推荐(0)
摘要:实现数据爬取的流程 指定url 基于requests模块发起请求 获取响应中的数据 数据解析(正则解析,bs4解析,xpath解析) 进行持久化存储 一.bs4(BeautifulSoup) 1.安装 2.解析原理 1.将即将要进行解析的源码加载到bs对象 2.调用bs对象中相关的方法或属性进行源码 阅读全文
posted @ 2019-02-27 19:33 Montant 阅读(3370) 评论(0) 推荐(1)
摘要:一.爬虫 1.介绍 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程 2.分类 通用爬虫: 通用爬虫是搜索引擎(Baidu、Google、Yahoo等)“抓取系统”的重要组成部分 聚焦爬虫:聚焦爬虫是根据指定的需求抓取网络上指定的数据。 3.反爬虫 门户网站通过相应的策略和技术手 阅读全文
posted @ 2019-02-26 21:42 Montant 阅读(1742) 评论(0) 推荐(0)