人人小站图片采集-python爬虫练习
程序通过采集人人小站的json文件获得某个标签下的所有gif图片及对应的图片描述。主要用到urllib.request正则,错误和异常处理。 中间遇到了不少坑,正则不熟练,以及采集中遇到的编码问题。当在json中采集时遇到字符表情时候就会出问题。遇到字符表情无法写入txt中。
程序自动崩溃,停止运行。编码问题最终没有解决, 、最后用try语法遇到这种编码问题的跳过,算是能够成功采集。程序稍作修改即可实现人人小站全站采集。
import urllib.request
import re
list=[]
for url in range(4106,7000):
list.append("http://zhan.renren.com/tag?value=gif&json=true&type=&page="+str(url))
#print(list)
for eachurl in list:
print(eachurl)
url2=urllib.request.urlopen(eachurl).read().decode()
# print(url2)
gif=re.findall("[a-zA-z]{4,5}://[^\s]*\.gif.{3}alt.{8}[^\s]*\"",url2,re.S)
# alt=re.findall("alt[^www](.*?)u003e",url2,re.S)
f=open("123.txt","a+")
for eachgif in gif:
try:
f.write(eachgif+"\n")
except UnicodeEncodeError:
continue
f.close()
# print(alt)
posted on 2016-04-05 15:45 python学习笔记 阅读(283) 评论(0) 收藏 举报
浙公网安备 33010602011771号