摘要:
# url管理器 class UrlManager(): def __init__(self): self.new_urls = set() #未爬取集合 self.old_urls = set() # 已爬取集合 def has_new_url(self): ''' 判断是否有未爬取的URL :... 阅读全文
posted @ 2017-10-22 18:32
Erick-LONG
阅读(287)
评论(0)
推荐(0)
摘要:
import requests from lxml import etree import urllib url = 'http://www.ivsky.com/tupian/ziranfengguang/' def Schedule(blocknum,blocksize,totolsize): per = 100.0 * blocknum * blocksize / totolsi... 阅读全文
posted @ 2017-10-22 16:44
Erick-LONG
阅读(506)
评论(0)
推荐(0)
摘要:
分布式进程可以有multiprocessing模块的managers子模块支持,可以写一个服务进程作为调度者,将任务分布到其他多个进程中,依靠网络通信进行管理 taskManager.py taskManager.py 阅读全文
posted @ 2017-10-22 11:39
Erick-LONG
阅读(580)
评论(0)
推荐(0)
摘要:
协程举例 result 协程池 阅读全文
posted @ 2017-10-22 10:25
Erick-LONG
阅读(125)
评论(0)
推荐(0)

浙公网安备 33010602011771号