吉阿吉

05 2021 档案

增量式爬虫案例
摘要:一、增量式爬虫:检测网站数据更新情况,只爬取网站最近更新出来的数据。 核心思路:将爬取过的详情url存储到redis的set集合。 爬虫文件: # -- coding: utf-8 -- import scrapy from scrapy.linkextractors import LinkExtr 阅读全文

posted @ 2021-05-16 17:58 吉阿吉 阅读(131) 评论(0) 推荐(0)

全站数据爬虫CrawlSpider类
摘要:一、目标网址 http://wz.sun0769.com/political/index/politicsNewest 二、scrapy创建项目 scrapy startproject SunPro cd SunPro scrapy genspider -t crawl sun www.xxx.co 阅读全文

posted @ 2021-05-16 08:14 吉阿吉 阅读(74) 评论(0) 推荐(0)

网易新闻爬虫
摘要:一、通过网易新闻首页解析出各板块对应的url 阅读全文

posted @ 2021-05-16 06:28 吉阿吉 阅读(97) 评论(0) 推荐(0)

python垃圾回收机制
摘要:我们知道,目前的计算机都采用的是图灵机架构,其本质就是用一条无限长的纸带,对应今天的存储器。随后在工程学的推演中,逐渐出现了寄存器、易失性存储器(内存)以及永久性存储器(硬盘)等产品。由于不同的存储器,其速度越快,单位价格也就越昂贵,因此,妥善利用好每一寸告诉存储器的空间,永远是系统设计的一个核心。 阅读全文

posted @ 2021-05-16 02:57 吉阿吉 阅读(66) 评论(0) 推荐(0)

线程进程协程
摘要:一、线程是执行单位,进程是资源单位 阅读全文

posted @ 2021-05-11 22:12 吉阿吉 阅读(42) 评论(0) 推荐(0)

爬虫各解析库易错点整理
摘要:一、xpath表达式不可以出现tbody标签 阅读全文

posted @ 2021-05-11 18:52 吉阿吉 阅读(45) 评论(0) 推荐(0)

Redis+Flask维护动态Cookies池
摘要:为什么要用Cookies池目标网站需要登录才能爬取,例如新浪微博。爬取过程中,如果请求频率过高,会导致封号。这就需要维护多个账号的Cookies池实现大规模爬取。Cookies池的要求自动登录更新定时验证筛选提供外部接口Cookies池的架构 首先,需要有一个账号队列,把一些账号密码存到数据库里,生 阅读全文

posted @ 2021-05-08 16:31 吉阿吉 阅读(147) 评论(0) 推荐(0)

单例模式
摘要:单例模式 单例模式就是确保一个类只有一个实例.当你希望整个系统中,某个类只有一个实例时,单例模式就派上了用场.比如,某个服务器的配置信息存在在一个文件中,客户端通过AppConfig类来读取配置文件的信息.如果程序的运行的过程中,很多地方都会用到配置文件信息,则就需要创建很多的AppConfig实例 阅读全文

posted @ 2021-05-07 18:40 吉阿吉 阅读(200) 评论(0) 推荐(0)

极验验证码处理案例
摘要:from selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.key 阅读全文

posted @ 2021-05-07 15:35 吉阿吉 阅读(100) 评论(0) 推荐(0)

极验验证码处理案例
摘要:from selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.key 阅读全文

posted @ 2021-05-07 14:54 吉阿吉 阅读(84) 评论(0) 推荐(0)

得到列表的一个子列表,该列表满足列表中的元素在原列表中是连续的,且子列表的所有元素之和最大。例如[1, -2, 3, -1, 2] => [3, -1, 2]
摘要:解: 阅读全文

posted @ 2021-05-07 14:48 吉阿吉 阅读(29) 评论(0) 推荐(0)

面试题整理
摘要:一、 Python 基本功1、简述Python 的特点和优点Python 是一门开源的解释性语言,相比 Java C++ 等语言,Python 具有动态特性,非常灵活。 2、Python 有哪些数据类型?Python 有 6 种内置的数据类型,其中不可变数据类型是Number(数字), String 阅读全文

posted @ 2021-05-06 23:50 吉阿吉 阅读(78) 评论(0) 推荐(0)

重构代理中间件适用于分布式爬虫
摘要:一、 阅读全文

posted @ 2021-05-06 23:33 吉阿吉 阅读(42) 评论(0) 推荐(0)

scrapy中ImagePipeline及图片懒加载
摘要:在网页源码中,在img标签中首先会使用一个“伪属性”(通常使用src2,original......)去存放真正的图片链接而并非是直接存放在src属性中。当图片出现到页面的可视化区域中,会动态将伪属性替换成src属性,完成图片的加载。爬虫是使用伪属性解析。 ImagesPipeline: class 阅读全文

posted @ 2021-05-04 15:46 吉阿吉 阅读(401) 评论(0) 推荐(0)

docker常用命令
摘要:docker load docker images docker save 阅读全文

posted @ 2021-05-03 17:31 吉阿吉 阅读(31) 评论(0) 推荐(0)

docker分布式爬虫搭建
摘要:一、基础镜像 参考《精通Python网络爬虫》机械工业出版社 二、实现中心节点并配置Redis与MySql docker run -tid --name ceter c354 #创建中心节点 docker ps -a #查看详情 docker attch 2eaf #进入中心节点 cat /etc/ 阅读全文

posted @ 2021-05-03 16:38 吉阿吉 阅读(124) 评论(0) 推荐(0)

scrapy各管道存储模板
摘要:一、csv文件存储 class CsvPipeline(): def open_spider(self,spider): self.file=open('filename.csv','wb') self.csv_exporter=CsvItemExporter(self.file) self.csv 阅读全文

posted @ 2021-05-03 15:52 吉阿吉 阅读(95) 评论(0) 推荐(0)

分布式爬虫处理redis数据
摘要:分布式爬虫默认八数据存储在redis中,可以将数据转存到Monogdb或Mysql中,从而降低内存消耗。 from redis import Redisfrom pymongo import MongoClientimport jsondef redis_to_mongodb(): redis_cl 阅读全文

posted @ 2021-05-02 23:53 吉阿吉 阅读(109) 评论(0) 推荐(0)

豆瓣电影爬虫
摘要:一、分析 阅读全文

posted @ 2021-05-02 23:18 吉阿吉 阅读(38) 评论(0) 推荐(0)

redis命令
摘要:redis-cli quit set setnx setex mset get incr append 阅读全文

posted @ 2021-05-02 15:34 吉阿吉 阅读(26) 评论(0) 推荐(0)

主从分布式5i5j爬虫
摘要:一、实现单机scrapy爬虫 阅读全文

posted @ 2021-05-01 14:56 吉阿吉 阅读(93) 评论(0) 推荐(0)

导航