人人小站图片采集-python爬虫练习

程序通过采集人人小站的json文件获得某个标签下的所有gif图片及对应的图片描述。主要用到urllib.request正则，错误和异常处理。中间遇到了不少坑，正则不熟练，以及采集中遇到的编码问题。当在json中采集时遇到字符表情时候就会出问题。遇到字符表情无法写入txt中。

程序自动崩溃，停止运行。编码问题最终没有解决，、最后用try语法遇到这种编码问题的跳过，算是能够成功采集。程序稍作修改即可实现人人小站全站采集。

import urllib.request
import re

list=[]
for url in range(4106,7000):
	list.append("http://zhan.renren.com/tag?value=gif&json=true&type=&page="+str(url))
#print(list)
for eachurl in list:
	print(eachurl)
	url2=urllib.request.urlopen(eachurl).read().decode()
#	print(url2)
	gif=re.findall("[a-zA-z]{4,5}://[^\s]*\.gif.{3}alt.{8}[^\s]*\"",url2,re.S)
#	alt=re.findall("alt[^www](.*?)u003e",url2,re.S)
	f=open("123.txt","a+")
	for eachgif in gif:
		try:
			f.write(eachgif+"\n")
		except UnicodeEncodeError:
			continue
	f.close()
#	print(alt)

posted on 2016-04-05 15:45 python学习笔记阅读(287) 评论(0) 收藏举报

刷新页面返回顶部

python学习笔记

人人小站图片采集-python爬虫练习

导航

公告