随笔档案「2021年5月」 - 技术改变命运Andy

2-1-数据结构-线性结构-数组/列表

摘要：# 数组 java语言叫数组，python里面就是列表，数组是一个线性表数据结构，就是只有前后两个关系，比如队列，栈，列表，链表，比如树状结构，就不是只有前后两个关系，还有兄弟关系，这就是非线性表， # 数组的特点 - 插入，如果你是中间插入这个后面元素都要往后移动，所以效率比较低，所以直接往最阅读全文

posted @ 2021-05-24 18:21 技术改变命运Andy 阅读(30) 评论(0) 推荐(0)

selenium 设置cookie，Proxy代理

摘要：### 设置cookie 获取cookie： self.driver.get_cookies() 是一个列表，列表里面是字典，储存着单条COOKie信息删除所有的cookie信息： driver.delete_all_cookies() 循环把所有的cookie添加进入： for cookie i 阅读全文

posted @ 2021-05-17 18:24 技术改变命运Andy 阅读(454) 评论(0) 推荐(0)

1-2-1python预备知识-mac电脑-python虚拟环境的维护

摘要：##### 安装python 这一步安装python就不说了，很基础，不在讲解 ##### 配置python虚拟环境 mac下配置python虚拟环境安装python虚拟环境核心目的就是为了复制一个python环境,这样新项目下载的所有包,都会存放在虚拟环境下的python site-packag 阅读全文

posted @ 2021-05-14 15:55 技术改变命运Andy 阅读(112) 评论(0) 推荐(0)

记录一次现网问题定位-5月12号

摘要：现象：出现404，偶现 404页面不是论坛返回的，所以没有进论坛 404是网关返回的，工具：请求先到网关，然后到服务器，所以需要看服务器 cat access.log | grep "/forum" | grep "404" 这个是查404的结果 cat access.log | grep " 阅读全文

posted @ 2021-05-12 11:50 技术改变命运Andy 阅读(80) 评论(0) 推荐(0)

4-爬虫框架-分布式异步爬虫

摘要：##### 分布式爬虫一、分布式爬虫架构爬虫Server，负责管理所有URL（即，爬虫客户端的下载任务）的状态，通过我们前面介绍的UrlPool（网址池）进行管理。 Server提供接口给Clients，以便它们获取URL和提交URL。爬虫Client，负责URL的下载、网页的解析以及存储等各阅读全文

posted @ 2021-05-09 23:04 技术改变命运Andy 阅读(263) 评论(0) 推荐(0)

3-爬虫框架-大规模异步并发爬虫

摘要：### 异步io io就是input，output，输入和输出，读写硬盘，读写数据库的时候，就是输入输出，下载网页存入数据库的时候，就是io操作以写数据为例，如果是阻塞型写入操作，进程要一直等待写结束返回才会进行后面的操作，但是如果你使用异步I/O，你可以将写请求发送到队列，然后就可以去做其他事阅读全文

posted @ 2021-05-07 00:51 技术改变命运Andy 阅读(124) 评论(0) 推荐(0)

2-爬虫框架-网址池的实现

摘要：#### 网址池的实现对于比较大型的爬虫来说，URL管理的管理是个核心问题，管理不好，就可能重复下载，也可能遗漏下载。这里，我们设计一个URL Pool来管理URL。这个URL Pool就是一个生产者-消费者模式：和scrapy的设计是一样的， 1，爬虫从网址池那url去下载解析， 2，爬虫解析阅读全文

posted @ 2021-05-07 00:01 技术改变命运Andy 阅读(450) 评论(0) 推荐(0)

1-爬虫框架-download和MySQL封装

摘要：### 关于自己实现爬虫框架，最终的目的是，让大家之后这些代码的逻辑是什么，为什么要这么写？？自己真的能应用到今后的工作中，这些代码做了很好的封装，可以作为爬虫的基本模块使用，在后面写爬虫的时候需要熟练使用， #### 爬虫的步骤 #### 爬虫步骤就是统一的，就是打开浏览器，打开网址，打开F1 阅读全文

posted @ 2021-05-06 18:39 技术改变命运Andy 阅读(100) 评论(0) 推荐(0)

技术改变命运Andy

05 2021 档案