05 2021 档案

摘要:# 数组 java语言叫数组,python里面就是列表, 数组是一个线性表数据结构,就是只有前后两个关系,比如队列,栈,列表,链表, 比如树状结构,就不是只有前后两个关系,还有兄弟关系,这就是非线性表, # 数组的特点 - 插入,如果你是中间插入这个后面元素都要往后移动,所以效率比较低,所以直接往最 阅读全文
posted @ 2021-05-24 18:21 技术改变命运Andy 阅读(30) 评论(0) 推荐(0)
摘要:### 设置cookie 获取cookie: self.driver.get_cookies() 是一个列表,列表里面是字典,储存着单条COOKie信息 删除所有的cookie信息: driver.delete_all_cookies() 循环把所有的cookie添加进入: for cookie i 阅读全文
posted @ 2021-05-17 18:24 技术改变命运Andy 阅读(454) 评论(0) 推荐(0)
摘要:##### 安装python 这一步安装python就不说了,很基础,不在讲解 ##### 配置python虚拟环境 mac下配置python虚拟环境 安装python虚拟环境核心目的就是为了复制一个python环境,这样新项目下载的所有包,都会存放在虚拟环境下的python site-packag 阅读全文
posted @ 2021-05-14 15:55 技术改变命运Andy 阅读(112) 评论(0) 推荐(0)
摘要:现象:出现404,偶现 404页面不是论坛返回的,所以没有进论坛 404是网关返回的, 工具: 请求先到网关, 然后到服务器,所以需要看服务器 cat access.log | grep "/forum" | grep "404" 这个是查404的结果 cat access.log | grep " 阅读全文
posted @ 2021-05-12 11:50 技术改变命运Andy 阅读(80) 评论(0) 推荐(0)
摘要:##### 分布式爬虫 一、分布式爬虫架构 爬虫Server,负责管理所有URL(即,爬虫客户端的下载任务)的状态,通过我们前面介绍的UrlPool(网址池)进行管理。 Server提供接口给Clients,以便它们获取URL和提交URL。 爬虫Client,负责URL的下载、网页的解析以及存储等各 阅读全文
posted @ 2021-05-09 23:04 技术改变命运Andy 阅读(263) 评论(0) 推荐(0)
摘要:### 异步io io就是input,output,输入和输出, 读写硬盘,读写数据库的时候,就是输入输出,下载网页存入数据库的时候,就是io操作 以写数据为例,如果是阻塞型写入操作,进程要一直等待写结束返回才会进行后面的操作,但是如果你使用异步I/O,你可以将写请求发送到队列,然后就可以去做其他事 阅读全文
posted @ 2021-05-07 00:51 技术改变命运Andy 阅读(124) 评论(0) 推荐(0)
摘要:#### 网址池的实现 对于比较大型的爬虫来说,URL管理的管理是个核心问题,管理不好,就可能重复下载,也可能遗漏下载。这里,我们设计一个URL Pool来管理URL。这个URL Pool就是一个生产者-消费者模式: 和scrapy的设计是一样的, 1,爬虫从网址池那url去下载解析, 2,爬虫解析 阅读全文
posted @ 2021-05-07 00:01 技术改变命运Andy 阅读(450) 评论(0) 推荐(0)
摘要:### 关于自己实现爬虫框架,最终的目的是,让大家之后这些代码的逻辑是什么,为什么要这么写??自己真的能应用到今后的工作中, 这些代码做了很好的封装,可以作为爬虫的基本模块使用,在后面写爬虫的时候需要熟练使用, #### 爬虫的步骤 #### 爬虫步骤就是统一的, 就是打开浏览器,打开网址,打开F1 阅读全文
posted @ 2021-05-06 18:39 技术改变命运Andy 阅读(100) 评论(0) 推荐(0)