随笔分类 - 爬虫__高级
爬虫的第三方库 如scrapy.......
摘要:概念 爬虫: 自动获取网站数据的程序 反爬虫:使用技术手段防止爬虫程序爬取数据 误伤: 反爬虫技术将普通用户识别为爬虫,这种情况多出现在封ip中,例如学校网络、小区网络都是共享一个公共ip。 这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策略不是特别好,通常都是
阅读全文
摘要:框架介绍 文件分类 核心部分: 引擎、下载器、调度器 自定义部分: spider(自己建的爬虫文件)、管道(pipelines.py) 目录结构 firstSpider firstSpider spiders # 爬虫目录(写代码位置)负责存放继承自scrapy的爬虫类 __init__.py bu
阅读全文

浙公网安备 33010602011771号