微信朋友圈转疯了(golang写小爬虫抓取朋友圈文章)

很多人在朋友圈里转发一些文章,标题都是什么转疯啦之类,虽然大多都也是广告啦,我觉得还蛮无聊的,但是的确是有一些文章是非常值得收藏的,比如老婆经常就会收藏一些养生和美容的文章在微信里看。

 

今天就突发奇想,不如利用搜索引擎把朋友圈的文章分门别类的(当然是老婆感兴趣的类型了)抓取出来,然后把图片也Down下来,生成一个网站给朋友们看岂不是不错? 说做就做,于是就有了这个网站:朋友圈转疯了 (http://www.meijia0.com) 域名不太好,凑合着用呗。(之前其实是准备用来做美甲图片站的,后来搁置了。因为老婆在家真的是没有时间去经营这种东西)。

 

既然说做就做,先利其器嘛, 把落灰的GO再捡起来,顺便学习了一下七牛云存储的API(不得不说真的是很受用),写了一个spider(gocrawl/goquery)。

之前有写一个笑话抓取的小东西  改了一下。增加了增量抓取(使用redis作cache),mongodb作为存储,前端嘛,万能的jquery+bootstrap,评论系统使用了多说。服务器放在阿里去,现在真是好时候,做什么东西都是齐全的。

 

根据关键词漫爬,24小时不停更新朋友圈文章,还有什么可以追求的呢?也许下次可以做一下中文分词和全文检索吧。

 

一整天,完事。其间在下载图片和加水印,以及上传至七牛这块浪费了太多时间。不管怎么说,上线了。来瞧瞧吧!

 

http://www.meijia0.com

 

以下是代码片断:

golang给图片加水印

 

golang 生成缩略图

 

golang上传文件至七牛

 

今天看了一篇许志伟同学的报道,甚是佩服。

posted on 2014-06-22 09:55  一只小菜鸟  阅读(8246)  评论(3编辑  收藏  举报