摘要:
一.指定模板创建爬虫文件 命令 创建成功后的模板,把http改为https 二.CrawSpider源码介绍 1.官网介绍: 这是用于抓取常规网站的最常用的蜘蛛,因为它通过定义一组规则为跟踪链接提供了便利的机制。它可能不是最适合您的特定网站或项目,但它在几种情况下足够通用,因此您可以从它开始并根据需 阅读全文
posted @ 2018-10-04 21:53
biu嘟
阅读(2493)
评论(0)
推荐(0)
摘要:
一.基本概念简介 1.爬虫: 自动获取网站数据的程序,关键是批量的获取。 2.反爬虫: 使用技术手段防止爬虫程序的方法。 3.误伤: 反爬技术将普通用户识别为爬虫,如果误伤过高,效果再好也不能用。(如局域网【学校,网吧等】可能用的是同一个ip,如果有人写了一个爬虫,把ip封了,可能损失很多用户。还有 阅读全文
posted @ 2018-10-04 16:30
biu嘟
阅读(2929)
评论(0)
推荐(0)

浙公网安备 33010602011771号