摘要: 我们一般采用下图的方式来操作字符串。在内存中保证字节长度统一,在磁盘中保证占用空间最小。 阅读全文
posted @ 2021-06-09 20:34 何哈哈哈 阅读(70) 评论(0) 推荐(0)
摘要: 以一亿条URL为例,存到set里占用空间为9个G,如果将URL使用md5加密后存入set占用内存为1-2个G。 如果将访问过的url使用hash函数映射到某一位,那么一亿条URL仅仅占用几十兆的空间。 Scrapy的去重策略为将URL使用md5加密后存入set。 阅读全文
posted @ 2021-06-09 20:15 何哈哈哈 阅读(83) 评论(0) 推荐(0)
摘要: pyinstaller库,用于打包编写好的.py文件为可执行文件。在其他系统上将无需安装python即可运行。 阅读全文
posted @ 2021-05-22 16:31 何哈哈哈 阅读(143) 评论(0) 推荐(0)
摘要: 本文仅为学习Python记录,资料来源于中国大学MOOC《Python语言设计》—嵩天 阅读全文
posted @ 2021-05-20 20:03 何哈哈哈 阅读(66) 评论(0) 推荐(0)
摘要: 本文仅为学习Python记录,资料来源于中国大学MOOC《Python语言设计》—嵩天 阅读全文
posted @ 2021-05-20 18:21 何哈哈哈 阅读(59) 评论(0) 推荐(0)
摘要: 将需要下载的三方库加入到下载列表中,运行此脚本将会进行自动下载。 import os #libs = ["numpy", "matplotlib", "pillow", "sklearn", "requests", "jieba",\ # "beautifulsoup4", "wheel", "ne 阅读全文
posted @ 2021-05-20 11:26 何哈哈哈 阅读(202) 评论(0) 推荐(0)