干it的小张

2020年3月8日

摘要： - 增量式 - 概念：用于监测网站数据更新的情况。 - 核心机制：去重。redis的set实现去重- 总结反爬机制： - robots - UA伪装 - 验证码 - 代理 - cookie - 动态变化的请求参数 - js加密 - js混淆 - 图片懒加载 - 动态数据的捕获 - seleium：规阅读全文

posted @ 2020-03-08 18:45 干it的小张阅读(166) 评论(0) 推荐(0)

分布式爬取阳光热线网

摘要： - 分布式 - 概念：需要搭建一个分布式的机群，然后在机群的每一台电脑中执行同一组程序，让其对某一个网站的数据进行联合分布爬取。 - 原生的scrapy框架是不可以实现分布式？ - 因为调度器不可以被共享 - 管道不可以被共享 - 如何实现分布式？ - scrapy+scrapy_redis实现分布阅读全文

posted @ 2020-03-08 12:33 干it的小张阅读(201) 评论(0) 推荐(0)

2020年3月7日

CrawlSpider全栈+深度爬取阳光热线网

摘要： - 图片懒加载 - 应用到标签的伪属性，数据捕获的时候一定是基于伪属性进行！！！- ImagePileline：专门用作于二进制数据下载和持久化存储的管道类- CrawlSpider - 一种基于scrapy进行全站数据爬取的一种新的技术手段。 - CrawlSpider就是Spider的一个子类阅读全文

posted @ 2020-03-07 17:26 干it的小张阅读(314) 评论(1) 推荐(0)

scrapy爬取站长素材

摘要： 1、创建项目scrapy startproject 爬虫项目名字2、创建虫子scrapy genspider 虫名字3、setting里面加UA伪装4、加LOG_LEVEL级别、ROBOTSTXT_OBEY = False5、虫名字里面爬取网站和解析数据6、item里面增加爬取的数据7、settin 阅读全文

posted @ 2020-03-07 11:39 干it的小张阅读(348) 评论(1) 推荐(0)

爬取虎牙存入mysql和redis

摘要： huya.py # -*- coding: utf-8 -*-import scrapyfrom huyaPro1.items import Huyapro1Itemclass HuyaSpider(scrapy.Spider): name = 'huya' # allowed_domains = 阅读全文

posted @ 2020-03-07 01:34 干it的小张阅读(166) 评论(0) 推荐(0)

公告