python urllib

urllib.urlretrieve(url[,filename[,reporthook[,data]]]):

urlretrieve方法直接将远程数据下载到本地

　　filebane指定了保存文件的路径如果没指定会生成一个临时的文件去保存

　　reporthook是一个函数当链接上服务器以及相应的数据块传输完毕的时候会出发该函数

实现一个小蜘蛛：

import urllib

import re

def getHtml(url):

　　page=urllib.urlopen(url)

　　html=page.read()

　　page.close()

　　return html

def getImg(html):

　　reg='src="(.*?.jpg)" width'

　　imgre =re.compile(reg)

　　imglist-imgre.findall(html)

　　i=0

　　for imgurl in imglist:

　　　　urllib.urlretrieve(imgurl,"/root/img/%d.jpg"%(i,))

　　　　i+=1

ht=getHtml(r"http://tieba.baidu.com/p/16992709597?fr=ala0&alath=2&pstbala=1")

print "##################"

print getImg(ht)

import chardet

chardet.detect(page) 得到的是一个字典 detect()检测所给字符的编码（可信度，编码）

posted @ 2013-03-18 11:13 yangluwei 阅读(143) 评论(0) 收藏举报

刷新页面返回顶部

yangluwei