随笔档案「2021年5月」 - 吉阿吉

增量式爬虫案例

摘要：一、增量式爬虫：检测网站数据更新情况，只爬取网站最近更新出来的数据。核心思路：将爬取过的详情url存储到redis的set集合。爬虫文件： # -- coding: utf-8 -- import scrapy from scrapy.linkextractors import LinkExtr 阅读全文

posted @ 2021-05-16 17:58 吉阿吉阅读(131) 评论(0) 推荐(0)

全站数据爬虫CrawlSpider类

摘要：一、目标网址 http://wz.sun0769.com/political/index/politicsNewest 二、scrapy创建项目 scrapy startproject SunPro cd SunPro scrapy genspider -t crawl sun www.xxx.co 阅读全文

posted @ 2021-05-16 08:14 吉阿吉阅读(74) 评论(0) 推荐(0)

网易新闻爬虫

摘要：一、通过网易新闻首页解析出各板块对应的url 阅读全文

posted @ 2021-05-16 06:28 吉阿吉阅读(97) 评论(0) 推荐(0)

python垃圾回收机制

摘要：我们知道，目前的计算机都采用的是图灵机架构，其本质就是用一条无限长的纸带，对应今天的存储器。随后在工程学的推演中，逐渐出现了寄存器、易失性存储器（内存）以及永久性存储器（硬盘）等产品。由于不同的存储器，其速度越快，单位价格也就越昂贵，因此，妥善利用好每一寸告诉存储器的空间，永远是系统设计的一个核心。阅读全文

posted @ 2021-05-16 02:57 吉阿吉阅读(66) 评论(0) 推荐(0)

线程进程协程

摘要：一、线程是执行单位，进程是资源单位阅读全文

posted @ 2021-05-11 22:12 吉阿吉阅读(42) 评论(0) 推荐(0)

爬虫各解析库易错点整理

摘要：一、xpath表达式不可以出现tbody标签阅读全文

posted @ 2021-05-11 18:52 吉阿吉阅读(45) 评论(0) 推荐(0)

Redis+Flask维护动态Cookies池

摘要：为什么要用Cookies池目标网站需要登录才能爬取，例如新浪微博。爬取过程中，如果请求频率过高，会导致封号。这就需要维护多个账号的Cookies池实现大规模爬取。Cookies池的要求自动登录更新定时验证筛选提供外部接口Cookies池的架构首先，需要有一个账号队列，把一些账号密码存到数据库里，生阅读全文

posted @ 2021-05-08 16:31 吉阿吉阅读(147) 评论(0) 推荐(0)

单例模式

摘要：单例模式单例模式就是确保一个类只有一个实例.当你希望整个系统中,某个类只有一个实例时,单例模式就派上了用场.比如,某个服务器的配置信息存在在一个文件中,客户端通过AppConfig类来读取配置文件的信息.如果程序的运行的过程中,很多地方都会用到配置文件信息,则就需要创建很多的AppConfig实例阅读全文

posted @ 2021-05-07 18:40 吉阿吉阅读(200) 评论(0) 推荐(0)

极验验证码处理案例

摘要：from selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.key 阅读全文

posted @ 2021-05-07 15:35 吉阿吉阅读(100) 评论(0) 推荐(0)

极验验证码处理案例

摘要：from selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.key 阅读全文

posted @ 2021-05-07 14:54 吉阿吉阅读(84) 评论(0) 推荐(0)

得到列表的一个子列表，该列表满足列表中的元素在原列表中是连续的，且子列表的所有元素之和最大。例如[1, -2, 3, -1, 2] => [3, -1, 2]

摘要：解：阅读全文

posted @ 2021-05-07 14:48 吉阿吉阅读(29) 评论(0) 推荐(0)

面试题整理

摘要：一、 Python 基本功1、简述Python 的特点和优点Python 是一门开源的解释性语言，相比 Java C++ 等语言，Python 具有动态特性，非常灵活。 2、Python 有哪些数据类型？Python 有 6 种内置的数据类型，其中不可变数据类型是Number(数字), String 阅读全文

posted @ 2021-05-06 23:50 吉阿吉阅读(78) 评论(0) 推荐(0)

重构代理中间件适用于分布式爬虫

摘要：一、阅读全文

posted @ 2021-05-06 23:33 吉阿吉阅读(42) 评论(0) 推荐(0)

scrapy中ImagePipeline及图片懒加载

摘要：在网页源码中，在img标签中首先会使用一个“伪属性”（通常使用src2，original......）去存放真正的图片链接而并非是直接存放在src属性中。当图片出现到页面的可视化区域中，会动态将伪属性替换成src属性，完成图片的加载。爬虫是使用伪属性解析。 ImagesPipeline: class 阅读全文

posted @ 2021-05-04 15:46 吉阿吉阅读(401) 评论(0) 推荐(0)

docker常用命令

摘要：docker load docker images docker save 阅读全文

posted @ 2021-05-03 17:31 吉阿吉阅读(31) 评论(0) 推荐(0)

docker分布式爬虫搭建

摘要：一、基础镜像参考《精通Python网络爬虫》机械工业出版社二、实现中心节点并配置Redis与MySql docker run -tid --name ceter c354 #创建中心节点 docker ps -a #查看详情 docker attch 2eaf #进入中心节点 cat /etc/ 阅读全文

posted @ 2021-05-03 16:38 吉阿吉阅读(124) 评论(0) 推荐(0)

scrapy各管道存储模板

摘要：一、csv文件存储 class CsvPipeline(): def open_spider(self,spider): self.file=open('filename.csv','wb') self.csv_exporter=CsvItemExporter(self.file) self.csv 阅读全文

posted @ 2021-05-03 15:52 吉阿吉阅读(95) 评论(0) 推荐(0)

分布式爬虫处理redis数据

摘要：分布式爬虫默认八数据存储在redis中，可以将数据转存到Monogdb或Mysql中，从而降低内存消耗。 from redis import Redisfrom pymongo import MongoClientimport jsondef redis_to_mongodb(): redis_cl 阅读全文

posted @ 2021-05-02 23:53 吉阿吉阅读(109) 评论(0) 推荐(0)

豆瓣电影爬虫

摘要：一、分析阅读全文

posted @ 2021-05-02 23:18 吉阿吉阅读(38) 评论(0) 推荐(0)

redis命令

摘要：redis-cli quit set setnx setex mset get incr append 阅读全文

posted @ 2021-05-02 15:34 吉阿吉阅读(26) 评论(0) 推荐(0)

主从分布式5i5j爬虫

摘要：一、实现单机scrapy爬虫阅读全文

posted @ 2021-05-01 14:56 吉阿吉阅读(93) 评论(0) 推荐(0)

吉阿吉

05 2021 档案

增量式爬虫案例

全站数据爬虫CrawlSpider类

网易新闻爬虫

python垃圾回收机制

线程进程协程

爬虫各解析库易错点整理

Redis+Flask维护动态Cookies池

单例模式

极验验证码处理案例

极验验证码处理案例

得到列表的一个子列表，该列表满足列表中的元素在原列表中是连续的，且子列表的所有元素之和最大。例如[1, -2, 3, -1, 2] => [3, -1, 2]

面试题整理

重构代理中间件适用于分布式爬虫

scrapy中ImagePipeline及图片懒加载

docker常用命令

docker分布式爬虫搭建

scrapy各管道存储模板

分布式爬虫处理redis数据

豆瓣电影爬虫

redis命令

主从分布式5i5j爬虫

导航

公告