随笔分类 - Python
摘要:一、关于Celery: 什么是任务队列: 任务队列一般用于线程或计算机之间分配工作的一种机制。 任务队列的输入是一个称为任务的工作单元,有专门的工作进行不断的监视任务队列,进行执行新的任务工作。 什么的Celery: Celery 通过消息机制进行通信,通常使用中间人(Broker)作为客户端和职程
阅读全文
摘要:一、关于AMQP: AMQP,即Advanced Message Queuing Protocol,高级消息队列协议。 AMQP使符合要求的客户端应用程序能够与符合要求的消息传递中间件代理进行通信。 AMQP是一种新的消息传递中间件开放标准。它解决了如何跨LANS和WANS连接应用程序的问题。在AM
阅读全文
摘要:一、关于MongoDB: MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。 在高负载的情况下,添加更多的节点,可以保证服务器性能。 MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB 将数据存储为一个文档,数据结构由键值(key=>v
阅读全文
摘要:一、关于NoSQL: NoSQL(NoSQL = Not Only SQL ),"不仅仅是SQL"。 相比MySQL等关系型数据库,NoSQL为非关系型的数据存储 Nosql中比较火的三个数据库有:Redis、Memchache、MongoDb。 为什么使用NoSQL: 为了解决大规模数据集合多重数
阅读全文
摘要:一、缓存的由来: 提升性能 绝大多数情况下,select 是出现性能问题最大的地方。一方面,select 会有很多像 join、group、order、like 等这样丰富的语义,而这些语义是非常耗性能的;另一方面,大多 数应用都是读多写少,所以加剧了慢查询的问题。 分布式系统中远程调用也会耗很多性
阅读全文
摘要:使用argparse,paramiko两个包去实现简易的服务器管理器,完成两种方式的连接( 密码和密钥 ),以及命令行交互,文件上传下载。 相比sys.argv的方式去判断传入的参数,如果参数较多那么argparse包更易维护和修改,远程控制模块paramiko可以很轻易的实现远控的功能 注意:pa
阅读全文
摘要:在写爬取页面a标签下href属性的时候,有这样一个问题,如果a标签下没有href这个属性则会报错,如下: 百度了有师傅用正则匹配的,方法感觉都不怎么好,查了BeautifulSoup的官方文档,发现一个不错的方法,如下图: 官方文档链接:https://beautifulsoup.readthedo
阅读全文
摘要:在爬取某站时并做简单分析时,遇到如下问题和大家分享,避免犯错: 一丶网站的path为 /info/1013/13930.htm ,其中13930为不同新闻的 ID 值,但是这个数虽然为升序,但是没有任何规律的升序。 解决办法: 使用 range 顺序爬取,错误的网站在页面会报如图错误: 这时我们首先
阅读全文

浙公网安备 33010602011771号