新浪微博爬取笔记（3）：wap端爬取用户微博列表，微博转发列表，用户信息

wap端登陆成功后，就可以安心开始爬取数据了。我这次需要的数据是：

（1）用户的近期1000条微博，需要：微博id，转发量，发布时间

（2）某条微博的转发列表，需要：转发人，转发时间

（3）某个用户的关注数，粉丝数，微博数，最近100条微博的平均转发量

相比模拟登陆，爬数据的工作就简单很多。但需要注意几个坑，一边做一边总结如下：

##爬微博列表##

（1）虽然目前wap端每页加载的微博数貌似是固定的，但其实是不固定的！爬一页的时候一定要先读取当页的实际微博数量。

　　有时候每页显示5条，有时候10条。。。

（2）“发布时间”和“来自xxx”基本在一个tag下，但是这个tag中可能还嵌套了tag，获取字节的时候要注意这点。

（3）我设置的每页爬取完后time.sleep(2)，目前爬100页还没有出现问题。(爬100页实际用了5分半)(代理这时候又不好用了，试了10几个都不行，可能是校园网限制，所以自己的ip一定要小心使用。。)

得到的一条数据是：

M_CdF7juKD8 转发[43] 04月17日 10:28 来自微博 weibo.com

清理数据：

用正则表达式提取数字等，参考http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

##爬转发列表##

转发列表每页间隔time.sleep(1.5)

爬了20多条某用户1000-1500转发的微博的转发列表，爬了两个多小时，一直都好好的, 然后突然找不到标签，丢失。。以为是BeautifulSoup的解析问题，换用lxml，但是lxml.etree的text()找不到字符串不知道是为什么。第二天重又运行了下BeautifulSoup实现的，居然没问题了。。难道是因为连续爬太多对方服务器会对这个ip发出警告？。。

真是提心吊胆啊。

第二天，同样又是爬了20多条后出现了问题。换了个号，好了。。

除了需要转发人和转发时间，还需要转发人前面的那些帐号。weibo.cn转发列表中的一条是这样的：

<div class="c"><a href="/u/1788790161">攒钱攒RP准备看控的某路</a>: //<a href="/n/%E6%88%98%E6%96%97%E5%90%A7%E5%A4%A7%E5%AE%AB%E5%B0%8F%E6%88%98%E5%A3%AB_KK">@战斗吧大宫小战士_KK</a>://<a href="/n/%E5%BF%83%E5%AE%BD%E6%89%8D%E8%83%BD%E4%BD%93%E6%A3%92">@心宽才能体棒</a>:mmm //<a href="/n/XXX_%E5%95%A6%E5%95%A6%E5%95%A6">@XXX_啦啦啦</a>://<a href="/n/%E5%B0%8F%E7%8C%AA%E5%A7%90%E5%A7%90zz">@小猪姐姐zz</a>: 太需要了！&nbsp;<span class="cc"><a href="/attitude/CdL8OB3ZZ/add?uid=2165379597&amp;rl=1&amp;do=rt&amp;st=aa3027">赞[0]</a></span><span class="ct">&nbsp;04月18日 01:49&nbsp;来自 iPhone客户端 </span></div>

可以看到，除了转发人，也就是第一个<a>中的href所用的是uid的域名（当然有些自主改了域名），后面的都是微博昵称，也就是大家说的ID。新浪微博生成的uid和昵称没有算法上的转换关系，不像微博的id和mid可以用算法转化，因此想通过其中一个获得另一个，就必须访问服务器，也就是访问网页查找元素这种方式。

通过‘/n/XXXXXXX’获得微博昵称，用url编码转化一下即可。

##爬用户信息##

{用户uid(已知) 用户ID 关注转发前xx条微博的转发数}

都是用BeautifulSoup定位元素，比如“爬用户信息”部分的主要代码：

 1 for line in urlFile.readlines():
 2     user1 = line.split()[0]
 3     print user1
 4     user2 = user1.split('/')[-1]#some adaption to the txt name
 5     userUrl = 'http://weibo.cn' + user1
 6     userFile = open("%sInfo.txt"%user2,'a')
 7     req = urllib2.Request(userUrl, headers = headers)
 8     resp = urllib2.urlopen(req)
 9     soup = BeautifulSoup(resp.read())
10     #htmlTree = HTML.fromstring(resp.read())
11 
12     #ID = htmlTree.xpath("/html/body/div[2]/table/tbody/tr/td[2]/div/span[1]")
13     ID_area = soup.find('div', attrs={"class":'u'})
14     IDli = ID_area.find('div',attrs = {"class":'ut'}).find('span', attrs={"class":'ctt'}).strings
15     ID = [string for string in IDli][0].split()[0].encode('utf-8')
16     ID_fo = ID_area.find('div', attrs = {'class':'tip2'})
17     #.strings is a generator, not iter(?)
18     li  =[string for string in ID_fo.stripped_strings]
19     ID_follow = re.compile('\w+').findall(li[1])[0]
20     ID_follower = re.compile('\w+').findall(li[2])[0]
21     userFile.write(str(user1) +' '+str(ID)+' '+str(ID_follow)+' '+str(ID_follower)+' ')
22     print 'part 1 finished'
23     time.sleep(1.5)
24 
25     ##then crawl for 20 pages for repo
26     for page in range(1, 21):
27         pageUrl = userUrl + '?page=%s'%page
28         post_num = len(soup.find_all('div', attrs = {"id":re.compile("M_"),"class":'c'}))
29         for post in range(0, post_num):
30             repoNum = soup.find_all('div', attrs = {"id":re.compile("M_"),"class":'c'})[post].find_all('div')[-1].find_all('a')[-3].string.encode('utf-8')
31             repoNum = re.compile('\w+').findall(repoNum)[0]
32             userFile.write(str(repoNum)+' ')
33         print page
34         time.sleep(1.5)
35     print 'part 2 finished'
36     userFile.close()

posted @ 2015-04-18 17:46 gooey 阅读(1752) 评论(0) 收藏举报

刷新页面返回顶部

gooey的博客

新浪微博爬取笔记（3）：wap端爬取用户微博列表，微博转发列表，用户信息

##爬微博列表##

##爬转发列表##

##爬用户信息##

公告

gooey的博客

新浪微博爬取笔记（3）：wap端爬取用户微博列表 ，微博转发列表，用户信息

##爬微博列表##

##爬转发列表##

##爬用户信息##

公告

新浪微博爬取笔记（3）：wap端爬取用户微博列表，微博转发列表，用户信息