摘要: Scrapy生成的项目目录 文件说明: scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中) items.py 设置数据存储模板,用于结构化数据,如:Django的Model pipelines 数据处理行 阅读全文
posted @ 2018-10-31 16:58 扎心了,老铁 阅读(2427) 评论(0) 推荐(0) 编辑
摘要: 1) 使用scrapy自带的set集合去重,当程序结束的时候会被清空,缺点:再次运行会导致数据重复。 2) 使用mysql做去重,对url地址进行md5,base64加密,加密之后会得到一串字符,判断字符串 是否在mysql表中,如果在表示已经爬取过了,如果不在,表示没有爬取,执行请求,将加密后的u 阅读全文
posted @ 2018-10-31 16:42 扎心了,老铁 阅读(3104) 评论(0) 推荐(0) 编辑
摘要: 表达式全集 常用正则表达式 阅读全文
posted @ 2018-10-31 16:41 扎心了,老铁 阅读(1294) 评论(0) 推荐(0) 编辑
摘要: 技术选型 scrapy VS requests+beautifulsoup 1. requests+beautifulsoup都是库,而scrapy是框架 2. scrapy框架中可以加入requests+beautifulsoup 3. scrapy框架是基于twisted(异步IO框架)的,性能 阅读全文
posted @ 2018-10-31 16:35 扎心了,老铁 阅读(838) 评论(0) 推荐(2) 编辑