摘要: python实现深度优先和广度优先的代码 # 深度优先过程 def depth_tree(tree_node): if tree_node is not None: print(tree_node._data) if tree_node._left is not None: return depth 阅读全文
posted @ 2021-06-09 20:43 何哈哈哈 阅读(279) 评论(0) 推荐(0)
摘要: 我们一般采用下图的方式来操作字符串。在内存中保证字节长度统一,在磁盘中保证占用空间最小。 阅读全文
posted @ 2021-06-09 20:34 何哈哈哈 阅读(70) 评论(0) 推荐(0)
摘要: 以一亿条URL为例,存到set里占用空间为9个G,如果将URL使用md5加密后存入set占用内存为1-2个G。 如果将访问过的url使用hash函数映射到某一位,那么一亿条URL仅仅占用几十兆的空间。 Scrapy的去重策略为将URL使用md5加密后存入set。 阅读全文
posted @ 2021-06-09 20:15 何哈哈哈 阅读(83) 评论(0) 推荐(0)