摘要: 毕设题目要使用到新浪微博数据,所以要爬取新浪微博的数据。一般而言,新浪微博的爬虫有两种模式:新浪官方API和模拟登录新浪微博。两种方法的异同点和适用情况就无须赘述了。前辈的文章已经非常多了。写这篇文章主要记录自己的探究过程。参考文章:1,解析新浪微博的登录过程 2,[Javascript] 爬虫 模拟新浪微博登陆 3,用java程序模拟登陆新浪微博背景知识:Http协议,HttpClient开源包。1,微博登陆流程使用Firefox下的HttpFox或者Chrome下的[工具]->[开发者工具](F12快捷键启动)可以查看浏览器与网站服务器之间的报文交换信息。我使用的是Fire... 阅读全文
posted @ 2014-03-25 16:22 而远之 阅读(6148) 评论(0) 推荐(1) 编辑