2020 年 7月随笔档案 - 时光哥哥

使用scrapy实现分布式爬虫

摘要：scrapy 分布式前言 scrapy 首先是不能实现分布式。因为调度器不能被共享管道不可以被共享分布式首先分布式是什么意识呢？就是需要搭建一个分布式机群，然后在机群的每一台服务器中执行同一组程序，让其对某个网站的数据进行联合分布式爬取。如何实现分布式基于 scrapy +s 阅读全文

posted @ 2020-07-12 15:07 时光哥哥阅读(2453) 评论(1) 推荐(0)

scrapy框架持久化存储

摘要：今日概要基于终端指令的持久化存储基于管道的持久化存储今日详情 1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象（通常为列表or字典）的返回，该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。执行输出指定格式进行存储：将爬取到的数据写入不同格式的文件阅读全文

posted @ 2020-07-12 14:57 时光哥哥阅读(311) 评论(0) 推荐(0)

Python中使用rsa加密

摘要：一. 生成公钥及私钥, 并保存二. 使用公钥加密, 私钥解密后记: 通常使用中, 会先对数据进行bas64加密, 再对加密后的内容使用rsa加密, 最后对rsa解密后的内容进行bas64解密. 阅读全文

posted @ 2020-07-04 22:06 时光哥哥阅读(461) 评论(0) 推荐(0)

使用Python进行微博登录

摘要：微博登录页面分析目标网站：https://weibo.com/ 微博密码加密使用的是rsa算法微博登陆成功总共涉及到三个步骤： 1、向https://login.sina.com.cn/sso/prelogin.php发送请求来获取密码加密所需要的公钥及一系列下次发送请求所需要的参数 2、向ht 阅读全文

posted @ 2020-07-04 21:57 时光哥哥阅读(1780) 评论(0) 推荐(1)

时光哥哥

07 2020 档案

公告