摘要: # url管理器 class UrlManager(): def __init__(self): self.new_urls = set() #未爬取集合 self.old_urls = set() # 已爬取集合 def has_new_url(self): ''' 判断是否有未爬取的URL :... 阅读全文
posted @ 2017-10-22 18:32 Erick-LONG 阅读(287) 评论(0) 推荐(0)
摘要: import requests from lxml import etree import urllib url = 'http://www.ivsky.com/tupian/ziranfengguang/' def Schedule(blocknum,blocksize,totolsize): per = 100.0 * blocknum * blocksize / totolsi... 阅读全文
posted @ 2017-10-22 16:44 Erick-LONG 阅读(506) 评论(0) 推荐(0)
摘要: 分布式进程可以有multiprocessing模块的managers子模块支持,可以写一个服务进程作为调度者,将任务分布到其他多个进程中,依靠网络通信进行管理 taskManager.py taskManager.py 阅读全文
posted @ 2017-10-22 11:39 Erick-LONG 阅读(580) 评论(0) 推荐(0)
摘要: 协程举例 result 协程池 阅读全文
posted @ 2017-10-22 10:25 Erick-LONG 阅读(125) 评论(0) 推荐(0)