新浪微博爬取 - 随笔分类 - gooey

新浪微博爬取笔记（4）：数据清理

摘要：数据清理的部分很多，其实爬数据的过程中步骤的间隔也要做数据清理，都是很琐碎繁杂的工作。总结经验的话，就是：1、一定要用数据库存储数据（我因为还不太会数据库，为了“节省学习时间”，所有数据项都用txt存储，直到最后出现了多个种类之间查找，文件夹树变得比较复杂，才觉得当初即使使用MySQL也会提高效率... 阅读全文

posted @ 2015-04-25 21:15 gooey 阅读(811) 评论(1) 推荐(0)

新浪微博爬取笔记（3）：wap端爬取用户微博列表，微博转发列表，用户信息

摘要：wap端登陆成功后，就可以安心开始爬取数据了。我这次需要的数据是：（1）用户的近期1000条微博，需要：微博id，转发量，发布时间（2）某条微博的转发列表，需要：转发人，转发时间（3）某个用户的关注数，粉丝数，微博数，最近100条微博的平均转发量相比模拟登陆，爬数据的工作就简单很多。但需要注意几个坑... 阅读全文

posted @ 2015-04-18 17:46 gooey 阅读(1749) 评论(0) 推荐(0)

新浪微博爬取笔记（2）：wap端模拟登陆 python

摘要：===================看了其他人的博客都写的很简洁干净，我这边的排版简直要晕。图和代码一起上，小白每一步都要有讲解。。。===================虽然weibo.com的模拟登陆用http://www.cnblogs.com/houkai/p/3487816.html的代... 阅读全文

posted @ 2015-04-15 14:20 gooey 阅读(4177) 评论(0) 推荐(0)

新浪微博爬取笔记（1）进度

摘要：############有关新浪微博wap模拟登陆、爬取的内容请看这一系列的其他博文############选择了一个新浪微博社会网络分析的毕设题目，需要爬取数据。只有一点python基础，爬虫这里是从零开始学习。看了若干技术博文，加了几个群。下半年就要进计算机学院的实验室做研究生project了，... 阅读全文

posted @ 2015-04-13 22:33 gooey 阅读(1250) 评论(0) 推荐(0)

gooey的博客

随笔分类 - 新浪微博爬取

公告