2020 年 6月 30 日随笔档案 - 李白斗酒诗百篇

2020年6月30日

摘要： 1. 一般经常用的通用思路：将爬取的url保存到数据库中，当获取下一个url的时候，就去数据库中查询这个url是否已经被访问过了。虽然数据库有缓存，但是当每个url读取数据库中查询的话，会导致效率下降的很快，所以这种策略用的不多，但是是最简单的一种方法。 2. 将访问过的url保存到set中去通阅读全文

posted @ 2020-06-30 22:34 李白斗酒诗百篇阅读(209) 评论(0) 推荐(0)

scheduler的调度规则

摘要：对爬虫的请求进行调度管理允许接收requests并且会调度一个request去下载，且具有去重机制优先级和队列不会被调度器执行（调度器不管优先级的问题），用户使用字段给每个Request对象，可以根据这些优先级去安排想要的优先级顺序调度器使用两个优先级队列实例。设置在内存队列和磁盘队列中工作。阅读全文

posted @ 2020-06-30 20:54 李白斗酒诗百篇阅读(345) 评论(0) 推荐(0)

scrapy爬虫框架

摘要： scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常方便。他可以应用在数据采集，数据挖掘，网络异常用户检测，存储数据等方面。 scrapy使用了Twisted异步网络库来处理网络通讯。框架的组成： 1. scrapy engine:引擎整阅读全文

posted @ 2020-06-30 20:53 李白斗酒诗百篇阅读(193) 评论(0) 推荐(0)

Django简介

摘要： Django是一个开发源代码的web应用框架，由Python写成，用于后台程序（服务器程序）。在众多的Python web框架中是重量级选手中最有代表性的一位。许多成功的网站和app都基于Django。使用Django，只要很少的代码就可以开发完成一个正式网站所需要的大部分内容，并进一步开发出全功阅读全文

posted @ 2020-06-30 17:15 李白斗酒诗百篇阅读(146) 评论(0) 推荐(0)

李白斗酒诗百篇

公告