06 2021 档案

摘要:新建爬虫项目:scrapy start project ArticleSpider 在项目文件夹中新建爬虫:scrapy genspider jobbole http//:www.jobbole.com 启动爬虫任务:scrapy crawl jobbole 阅读全文
posted @ 2021-06-10 21:25 何哈哈哈 阅读(56) 评论(0) 推荐(0)
摘要:python实现深度优先和广度优先的代码 # 深度优先过程 def depth_tree(tree_node): if tree_node is not None: print(tree_node._data) if tree_node._left is not None: return depth 阅读全文
posted @ 2021-06-09 20:43 何哈哈哈 阅读(279) 评论(0) 推荐(0)
摘要:我们一般采用下图的方式来操作字符串。在内存中保证字节长度统一,在磁盘中保证占用空间最小。 阅读全文
posted @ 2021-06-09 20:34 何哈哈哈 阅读(70) 评论(0) 推荐(0)
摘要:以一亿条URL为例,存到set里占用空间为9个G,如果将URL使用md5加密后存入set占用内存为1-2个G。 如果将访问过的url使用hash函数映射到某一位,那么一亿条URL仅仅占用几十兆的空间。 Scrapy的去重策略为将URL使用md5加密后存入set。 阅读全文
posted @ 2021-06-09 20:15 何哈哈哈 阅读(83) 评论(0) 推荐(0)