2017年2月20日

mongodb查询条件对查询效率的影响

摘要: 背景和概述 数据状况: mongodb的一个db中存了近2000万记录,有type(字符串)、ctime(float,创建时间)等索引参数,记录的自然顺序和ctime的排序是一致的。 查询需求: 从第47万开始查询并返回结果,每批次返回100条;为后续业务逻辑需求,在执行batch_size(100 阅读全文

posted @ 2017-02-20 13:05 忧伤的南瓜 阅读(10427) 评论(0) 推荐(0) 编辑

2017年2月18日

mysql的字符集

摘要: 背景 python连接mysql存储数据时,如果数据中有表情符号等,可能碰到以下两类警告: 方案 要避免这类警告,保证存储数据的完整性,需要确保mysql的server(database) connection client通路上每一个节点的字符编码都为utf8mb4. 服务器端的设置 数据库的设置 阅读全文

posted @ 2017-02-18 23:20 忧伤的南瓜 阅读(174) 评论(0) 推荐(0) 编辑

2017年2月10日

url中常见的符号的编码

摘要: ```ipython In [14]: import urllib In [15]: urllib.unquote("%3a") Out[15]: ':' In [16]: urllib.unquote("%2f") Out[16]: '/' In [17]: urllib.unquote("%3f") Out[17]: '?' In [18]: urllib.unquote("%26")... 阅读全文

posted @ 2017-02-10 13:09 忧伤的南瓜 阅读(326) 评论(0) 推荐(0) 编辑

2017年2月9日

python读写文件以及常用httpClient响应体的编码问题

摘要: 9 12,结论:unicode不能直接写入文件,需要先编码,编码方式任意,只要能成功编码即可,如可用GBK、UTF 8。 13,结论:选用的编码方式须能编码目标字符(例子中的“喆”不包含在GB2312中,导致失败) 14,结论:用codecs操作写文件时,参数指定编码方式后,无须手动对字符串进行编码 阅读全文

posted @ 2017-02-09 22:22 忧伤的南瓜 阅读(705) 评论(0) 推荐(0) 编辑

python正则替换中的unicode问题

摘要: 17 19,结论:对于unicode字符串,要用unicode正则字符串查找,unicode正则字符串的构成有两个要件,一是字符串本身由unicode字符构成,二是用'u'引导(python2); 20 23,结论:对于str字符串,要用二进制正则字符串查找,用'r'引导,如果用'u'引导,因为并不 阅读全文

posted @ 2017-02-09 18:52 忧伤的南瓜 阅读(1275) 评论(0) 推荐(0) 编辑

2017年1月23日

从mongodb的存储中回收磁盘空间

摘要: 1. 前言 mongodb文档中存储一节中关于磁盘空间回收的说明,简单处理、备注记于此。标号为另加,原文档见:https://docs.mongodb.com/v3.2/faq/storage/ 2. Why are the files in my data directory larger tha 阅读全文

posted @ 2017-01-23 18:11 忧伤的南瓜 阅读(2803) 评论(0) 推荐(0) 编辑

爬虫利用keep-alive实现“减员增效”

摘要: 背景 爬虫单位时间内请求数多,对己方机器、对方服务器都会形成压力,如果每个请求都开启一个新连接,更是如此;如果服务器支持keep alive,爬虫就可以通过多个请求共用一个连接实现“减员增效”:单位时间内新建、关闭的连接的数目少了,但可实现的有效请求多了,并且也能有效降低给目标服务器造成的压力。 k 阅读全文

posted @ 2017-01-23 14:57 忧伤的南瓜 阅读(1671) 评论(0) 推荐(0) 编辑

2017年1月22日

为html瘦身的pythonl函数

摘要: 背景 需要缓存html源码以备解析用,且需要去除与解析结果无关的代码以节省存储;可根据实际需要扩展。 代码 阅读全文

posted @ 2017-01-22 11:26 忧伤的南瓜 阅读(342) 评论(0) 推荐(0) 编辑

2017年1月21日

python字符编码演示三则

摘要: python2默认终端环境中文由gb系列编码处理 ipython默认终端环境中文由utf 8编码处理 字符编码方案对字节数相关计算的影响 总结 牢记unicode是字符集,gb/utf 8等是编码方案,decode是“编码结果→字符集”,encode是“字符集→编码结果” 阅读全文

posted @ 2017-01-21 23:03 忧伤的南瓜 阅读(326) 评论(0) 推荐(0) 编辑

2017年1月18日

爬虫任务队列方案以及性能测试

摘要: 方案 任务队列存储在redis的list中,所有下载过、未下载的url存储在redis的set,通过set的sismember函数查重。 性能 set成员1.2kw左右,进行10000次测试,每次测试时需查重的url数量不一(20~100); 结果显示1000次查重运算(以及更多数量的正则匹配等运算 阅读全文

posted @ 2017-01-18 09:17 忧伤的南瓜 阅读(296) 评论(0) 推荐(0) 编辑

导航