2018 年 10月 4 日随笔档案 - biu嘟

2018年10月4日

摘要：一.指定模板创建爬虫文件命令创建成功后的模板，把http改为https 二.CrawSpider源码介绍 1.官网介绍：这是用于抓取常规网站的最常用的蜘蛛，因为它通过定义一组规则为跟踪链接提供了便利的机制。它可能不是最适合您的特定网站或项目，但它在几种情况下足够通用，因此您可以从它开始并根据需阅读全文

posted @ 2018-10-04 21:53 biu嘟阅读(2493) 评论(0) 推荐(0)

爬虫与反爬虫与反反爬虫简介

摘要：一.基本概念简介 1.爬虫：自动获取网站数据的程序，关键是批量的获取。 2.反爬虫：使用技术手段防止爬虫程序的方法。 3.误伤：反爬技术将普通用户识别为爬虫，如果误伤过高，效果再好也不能用。（如局域网【学校，网吧等】可能用的是同一个ip，如果有人写了一个爬虫，把ip封了，可能损失很多用户。还有阅读全文

posted @ 2018-10-04 16:30 biu嘟阅读(2929) 评论(0) 推荐(0)

biu嘟

公告