随笔分类 -  新浪微博爬取

摘要:数据清理的部分很多,其实爬数据的过程中步骤的间隔也要做数据清理,都是很琐碎繁杂的工作。总结经验的话,就是:1、一定要用数据库存储数据 (我因为还不太会数据库,为了“节省学习时间”,所有数据项都用txt存储,直到最后出现了多个种类之间查找,文件夹树变得比较复杂,才觉得当初即使使用MySQL也会提高效率... 阅读全文
posted @ 2015-04-25 21:15 gooey 阅读(728) 评论(1) 推荐(0) 编辑
摘要:wap端登陆成功后,就可以安心开始爬取数据了。我这次需要的数据是:(1)用户的近期1000条微博,需要:微博id,转发量,发布时间(2)某条微博的转发列表,需要:转发人,转发时间(3)某个用户的关注数,粉丝数,微博数,最近100条微博的平均转发量相比模拟登陆,爬数据的工作就简单很多。但需要注意几个坑... 阅读全文
posted @ 2015-04-18 17:46 gooey 阅读(1605) 评论(0) 推荐(0) 编辑
摘要:===================看了其他人的博客都写的很简洁干净,我这边的排版简直要晕。图和代码一起上,小白每一步都要有讲解。。。===================虽然weibo.com的模拟登陆用http://www.cnblogs.com/houkai/p/3487816.html的代... 阅读全文
posted @ 2015-04-15 14:20 gooey 阅读(3641) 评论(0) 推荐(0) 编辑
摘要:############有关新浪微博wap模拟登陆、爬取的内容请看这一系列的其他博文############选择了一个新浪微博社会网络分析的毕设题目,需要爬取数据。只有一点python基础,爬虫这里是从零开始学习。看了若干技术博文,加了几个群。下半年就要进计算机学院的实验室做研究生project了,... 阅读全文
posted @ 2015-04-13 22:33 gooey 阅读(1214) 评论(0) 推荐(0) 编辑