吉阿吉

2021年5月11日

爬虫各解析库易错点整理

摘要: 一、xpath表达式不可以出现tbody标签 阅读全文

posted @ 2021-05-11 18:52 吉阿吉 阅读(36) 评论(0) 推荐(0)

2021年5月8日

Redis+Flask维护动态Cookies池

摘要: 为什么要用Cookies池目标网站需要登录才能爬取,例如新浪微博。爬取过程中,如果请求频率过高,会导致封号。这就需要维护多个账号的Cookies池实现大规模爬取。Cookies池的要求自动登录更新定时验证筛选提供外部接口Cookies池的架构 首先,需要有一个账号队列,把一些账号密码存到数据库里,生 阅读全文

posted @ 2021-05-08 16:31 吉阿吉 阅读(139) 评论(0) 推荐(0)

2021年5月7日

单例模式

摘要: 单例模式 单例模式就是确保一个类只有一个实例.当你希望整个系统中,某个类只有一个实例时,单例模式就派上了用场.比如,某个服务器的配置信息存在在一个文件中,客户端通过AppConfig类来读取配置文件的信息.如果程序的运行的过程中,很多地方都会用到配置文件信息,则就需要创建很多的AppConfig实例 阅读全文

posted @ 2021-05-07 18:40 吉阿吉 阅读(189) 评论(0) 推荐(0)

极验验证码处理案例

摘要: from selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.key 阅读全文

posted @ 2021-05-07 15:35 吉阿吉 阅读(90) 评论(0) 推荐(0)

极验验证码处理案例

摘要: from selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.key 阅读全文

posted @ 2021-05-07 14:54 吉阿吉 阅读(73) 评论(0) 推荐(0)

得到列表的一个子列表,该列表满足列表中的元素在原列表中是连续的,且子列表的所有元素之和最大。例如[1, -2, 3, -1, 2] => [3, -1, 2]

摘要: 解: 阅读全文

posted @ 2021-05-07 14:48 吉阿吉 阅读(26) 评论(0) 推荐(0)

2021年5月6日

面试题整理

摘要: 一、 Python 基本功1、简述Python 的特点和优点Python 是一门开源的解释性语言,相比 Java C++ 等语言,Python 具有动态特性,非常灵活。 2、Python 有哪些数据类型?Python 有 6 种内置的数据类型,其中不可变数据类型是Number(数字), String 阅读全文

posted @ 2021-05-06 23:50 吉阿吉 阅读(76) 评论(0) 推荐(0)

重构代理中间件适用于分布式爬虫

摘要: 一、 阅读全文

posted @ 2021-05-06 23:33 吉阿吉 阅读(36) 评论(0) 推荐(0)

2021年5月4日

scrapy中ImagePipeline及图片懒加载

摘要: 在网页源码中,在img标签中首先会使用一个“伪属性”(通常使用src2,original......)去存放真正的图片链接而并非是直接存放在src属性中。当图片出现到页面的可视化区域中,会动态将伪属性替换成src属性,完成图片的加载。爬虫是使用伪属性解析。 ImagesPipeline: class 阅读全文

posted @ 2021-05-04 15:46 吉阿吉 阅读(395) 评论(0) 推荐(0)

2021年5月3日

docker常用命令

摘要: docker load docker images docker save 阅读全文

posted @ 2021-05-03 17:31 吉阿吉 阅读(23) 评论(0) 推荐(0)

导航