会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
椿与湫
博客园
首页
新随笔
联系
订阅
管理
2019年1月9日
scrapydweb----高效地部署和监控分布式爬虫项目
摘要: 需求分析 初级用户 只有一台开发主机 能够通过 Scrapyd-client 打包和部署 Scrapy 爬虫项目,以及通过 Scrapyd JSON API 来控制爬虫,感觉命令行操作太麻烦,希望能够通过浏览器直接部署和运行项目 专业用户 有 N 台云主机,通过 Scrapy-Redis 构建分布式
阅读全文
posted @ 2019-01-09 13:07 椿与湫
阅读(1251)
评论(1)
推荐(0)
2018年12月24日
linux神技:screen命令管理远程会话
摘要: 一 使用场景 通常我们使用SSH 或者telent 远程登录到Linux 服务器,经常运行一些需要很长时间才能完成的任务,比如爬虫、ftp 传输、文件备份等等。 通常情况下我们都是为每一个这样的任务单独新开一个远程终端窗口,因为它们执行的时间太长了。必须等待它们执行完毕,在此期间不能关掉窗口或者断开
阅读全文
posted @ 2018-12-24 15:58 椿与湫
阅读(697)
评论(0)
推荐(0)
2018年12月15日
scrapy 多爬虫顺序定时执行
摘要: scrapy可以在spiders目录下建立多个爬虫文件,常用的启动方式: 方法一 在包含 scrapy.cfg 的目录下, 启动命令为: 方法二 调用cmdline模块来启动scrapy 在与settings.py文件同级的目录下新建执行文件, 如 run.py 。 以下有两种写法: 以上只能同时执
阅读全文
posted @ 2018-12-15 16:44 椿与湫
阅读(2121)
评论(0)
推荐(0)
2018年11月30日
grep多条件查找"与","或"
摘要: 这里以 jps 命令为例 jps 查看全部的jvm进程 "与" 查找 下图是 所有 jvm进程 如果想查找 256891 ThriftServer 服务 用 "与" 查找 可以理解为是条件查找 命令: jps |grep -e er | grep -e T "或" 查找 方法一: grep -E '
阅读全文
posted @ 2018-11-30 16:12 椿与湫
阅读(12652)
评论(0)
推荐(1)
2018年3月31日
比特币和区块链(3):比特币的共识机制
摘要: 上一篇我们详细介绍了不可篡改的账本区块链的数据结构的实现。其核心技术第一是数字签名,比特币采用的是椭圆曲线数字签名算法。第二是加密级别的哈希,比特币采用的是SHA256。 然而在我们的系统里,依然只有一个寡头负责记账。我们固然不用担心交易记录被伪造,因为有数字签名。我们也不用担心区块被篡改,因为可以
阅读全文
posted @ 2018-03-31 11:36 椿与湫
阅读(701)
评论(0)
推荐(0)
比特币和区块链(2):比特币中区块链的实现
摘要: 上一篇我们讨论电子货币的时候提出了由一个寡头负责对所有人的电子货币和交易进行记账,记录到只能增加不可修改的账本里,并且把账本公开给所有的人看的这样一个电子货币模式。 这个模式解决了很多的问题。最主要的是电子货币被复制使用的问题。但是这个模式有两个比较大的问题。第一是这个账本怎么实现。第二是一个寡头是
阅读全文
posted @ 2018-03-31 11:34 椿与湫
阅读(197)
评论(0)
推荐(0)
比特币和区块链(1):真钱,电子货币以及区块链
摘要: 比特币和区块链系列0篇发出去之后,有些人表示了不满意,说我写的肤浅。更多的人则请教了很多问题。之所以我没像很多装神弄鬼的文章那样上来大吹特吹区块链改变生命,又像很多人上来就说区块链是个大骗局,最主要的是因为我从来没看到一篇科普文章把区块链讲清楚。而飞总希望可以把这个概念以老少皆宜,不需要太多的计算机
阅读全文
posted @ 2018-03-31 11:33 椿与湫
阅读(192)
评论(0)
推荐(0)
2018年3月29日
xpath获取下一页,兄弟节点的妙用
摘要: 第一页的情况: 第四页的情况 : 文章的链接: http://tech.huanqiu.com/science/2018-02/11605853_4.html 从上面我们可以看到,如果仅仅用xpath获取下一页的链接 例如: //div[@id="pages"]/a[@class="a1"][tex
阅读全文
posted @ 2018-03-29 19:12 椿与湫
阅读(8172)
评论(1)
推荐(0)
2018年3月21日
python scrapy框架爬虫遇到301
摘要: 1.什么是状态码301 301 Moved Permanently(永久重定向) 被请求的资源已永久移动到新位置,并且将来任何对此资源的引用都应该使用本响应返回的若干个URI之一。如果可能,拥有链接编辑功能的客户端应当自动把请求的地址修改为从服务器反馈回来的地址。除非额外指定,否则这个响应也是可缓存
阅读全文
posted @ 2018-03-21 17:12 椿与湫
阅读(3810)
评论(1)
推荐(0)
2018年3月14日
python替换残缺的多域名图片网址
摘要: 在获取网站真是图片的时候,经常遇到图片链接残缺问题。 例如下图所示的情况: img标签中的图片链接是残缺的,如果这个网站域名又是多种情况的话,比如 http://sports.online.sh.cn/content/2018-03/13/content_8813151.htm http://spo
阅读全文
posted @ 2018-03-14 17:08 椿与湫
阅读(553)
评论(0)
推荐(0)
下一页
公告