python - 随笔分类 - 吉大依恋

多线程网页爬虫 python 实现（二）

摘要：#!/usr/bin/env python #coding=utf-8 import threading import urllib import re import time cur=0 last=0 totalcount=0 depth=0 t_mutex=threading.Condition() class Mycrawler: def __init__(self,craw... 阅读全文

posted @ 2014-10-14 21:56 吉大依恋阅读(848) 评论(0) 推荐(0)

多线程网页爬虫 python 实现

摘要：采用了多线程和锁机制，实现了广度优先算法的网页爬虫。对于一个网络爬虫，如果要按广度遍历的方式下载，它就是这样干活的： 1.从给定的入口网址把第一个网页下载下来 2.从第一个网页中提取出所有新的网页地址，放入下载列表中 3.按下载列表中的地址，下载所有新的网页 4.从所有新的网页中找出没有下载过的网阅读全文

posted @ 2014-10-13 20:30 吉大依恋阅读(5953) 评论(0) 推荐(1)

python实现的一个简单的网页爬虫

摘要：学习了下python，看了一个简单的网页爬虫：http://www.cnblogs.com/fnng/p/3576154.html自己实现了一个简单的网页爬虫，获取豆瓣的最新电影信息。爬虫主要是获取页面，然后对页面进行解析，解析出自己所需要的信息进行进一步分析和挖掘。首先需要学习python的正则表... 阅读全文

posted @ 2014-10-11 16:36 吉大依恋阅读(2420) 评论(0) 推荐(0)

随笔分类 - python