06 2021 档案
摘要:新建爬虫项目:scrapy start project ArticleSpider 在项目文件夹中新建爬虫:scrapy genspider jobbole http//:www.jobbole.com 启动爬虫任务:scrapy crawl jobbole
阅读全文
摘要:python实现深度优先和广度优先的代码 # 深度优先过程 def depth_tree(tree_node): if tree_node is not None: print(tree_node._data) if tree_node._left is not None: return depth
阅读全文
摘要:我们一般采用下图的方式来操作字符串。在内存中保证字节长度统一,在磁盘中保证占用空间最小。
阅读全文
摘要:以一亿条URL为例,存到set里占用空间为9个G,如果将URL使用md5加密后存入set占用内存为1-2个G。 如果将访问过的url使用hash函数映射到某一位,那么一亿条URL仅仅占用几十兆的空间。 Scrapy的去重策略为将URL使用md5加密后存入set。
阅读全文

浙公网安备 33010602011771号