多线程网页爬虫 python 实现(二)
摘要:#!/usr/bin/env python #coding=utf-8 import threading import urllib import re import time cur=0 last=0 totalcount=0 depth=0 t_mutex=threading.Condition() class Mycrawler: def __init__(self,craw...
阅读全文
posted @
2014-10-14 21:56
吉大依恋
阅读(833)
推荐(0)
多线程网页爬虫 python 实现
摘要:采用了多线程和锁机制,实现了广度优先算法的网页爬虫。 对于一个网络爬虫,如果要按广度遍历的方式下载,它就是这样干活的: 1.从给定的入口网址把第一个网页下载下来 2.从第一个网页中提取出所有新的网页地址,放入下载列表中 3.按下载列表中的地址,下载所有新的网页 4.从所有新的网页中找出没有下载过的网
阅读全文
posted @
2014-10-13 20:30
吉大依恋
阅读(5943)
推荐(1)
python实现的一个简单的网页爬虫
摘要:学习了下python,看了一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html自己实现了一个简单的网页爬虫,获取豆瓣的最新电影信息。爬虫主要是获取页面,然后对页面进行解析,解析出自己所需要的信息进行进一步分析和挖掘。首先需要学习python的正则表...
阅读全文
posted @
2014-10-11 16:36
吉大依恋
阅读(2413)
推荐(0)