beautifulsoup的使用
靓汤很好用,代码直接减少一半
1 urls = [] 2 queue = Queue.Queue() 3 4 def geturl(url): 5 6 html = urllib2.urlopen(url).read() 7 soup = BeautifulSoup(html) 8 tag_a = soup.findAll('a', href=True) 9 for i in tag_a: 10 s = i['href'] 11 if s.startswith('#'): 12 pass 13 elif s.startswith('/'): 14 s = url + s 15 if s not in urls: 16 urls.append(s) 17 queue.put(s) 18 else: 19 if s not in urls: 20 urls.append(s) 21 queue.put(s) 22 return urls, queue
多线程看完了,也了解一部分,不是很难,可是发现一个问题就是 我不知道该怎么把单线程变成多线程。调了好久。老是不在点上。着急呀
有大牛看到我的这个问题的话,请指点!!!
浙公网安备 33010602011771号