07 2020 档案

摘要:scrapy 分布式 前言 scrapy 首先是不能实现 分布式。 因为调度器不能被共享 管道不可以被共享 分布式 首先 分布式 是什么意识呢? 就是 需要搭建一个分布式机群,然后在机群的每一台服务器中执行同一组程序,让其对某个网站的数据进行联合分布式爬取。 如何实现分布式 基于 scrapy +s 阅读全文
posted @ 2020-07-12 15:07 时光哥哥 阅读(2453) 评论(1) 推荐(0)
摘要:今日概要 基于终端指令的持久化存储 基于管道的持久化存储 今日详情 1.基于终端指令的持久化存储 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。 执行输出指定格式进行存储:将爬取到的数据写入不同格式的文件 阅读全文
posted @ 2020-07-12 14:57 时光哥哥 阅读(311) 评论(0) 推荐(0)
摘要:一. 生成公钥及私钥, 并保存 二. 使用公钥加密, 私钥解密 后记: 通常使用中, 会先对数据进行bas64加密, 再对加密后的内容使用rsa加密, 最后对rsa解密后的内容 进行bas64解密. 阅读全文
posted @ 2020-07-04 22:06 时光哥哥 阅读(461) 评论(0) 推荐(0)
摘要:微博登录页面分析 目标网站:https://weibo.com/ 微博密码加密使用的是rsa算法 微博登陆成功总共涉及到三个步骤: 1、向https://login.sina.com.cn/sso/prelogin.php发送请求来获取密码加密所需要的公钥及一系列下次发送请求所需要的参数 2、向ht 阅读全文
posted @ 2020-07-04 21:57 时光哥哥 阅读(1780) 评论(0) 推荐(1)