一键构造你的博客目录

最近看了一下吴军的数学之美。书很好，废话我就不多少了。看了第9章图论和网络爬虫，一直都觉得网络爬虫很牛B，搜索引擎不就是用爬虫爬网页的吗，于是想写一个简单的爬虫来爬网页试试，最先想到的就是给自己的博客建一个目录，够小够简单了吧，于是就有了这篇文章，简单的分享一下，先申明我的实现很简单没有技术含量，在看下文之前可以先看看我的博客目录。源码必共享

简单介绍一下网络爬虫的原理：给你一个网页地址，先把这个网页下载下来，然后分析这个网页的内容，得到这个网页中的所有链接，然后下载这些网页，继续分析下载。这样就能下载互联网上的很多网页。原理就这么简单，实现起来就不那么容易了。由于深入不了只能说简单的。

构造我的博客目录思路简单分析。获得你的所有文章的地址及标题，然后将这些文章分类。你的文章其实是已经分类好了的，只用得到你的文章的所有分类，然后根据分类得到所有分类下的文章，就可以得到你所有的文章及其分类，构造你的博客目录就容易了。

被否定了的思路一：随便拿到我的一篇文章的地址，下载这篇文章，然后分析这个地址，得到这篇文章里面的所有链接，按照一定的规则得到我的文章地址，即排除无用的连接，然后以爬虫的思路得到我的所有文章，由于每篇文章都有它的分类，所以很快就能构造我的博客目录了。然而由于博客园的实现不是我想的那样，在下载一篇文章的时候，没有下面的内容，因为下面的内容就像一个双向链表一样将我的所有文章连接起来了，我只要知道一篇文章的地址，通过这个”双向链表“我就能得到我的所有文章了，可就是下载网页里偏偏没有下面的内容，于是这个最接近爬虫的方法被PASS掉了。

被否定了的思路二。每个人的文章都是分页显示的，我就可以下载这些内容，然后就可以得到我的所有文章，可还是有个问题，跟上面一样的原因，妹的，下载的网页中没有文章的分类，得到了所有的文章，却不知道文章的分类，叫我怎么构造目录啊。于是又被PASS掉了。

要构造我的博客目录，这么简单的需求方法当然是很多的了，于是用了个不太想爬虫的方法。就是上面所说的，得到所有文章的分类，下载每个分类下的文章，构造博客目录。获得我的博客分类的方法很简单，如获取我的文章分类方法如下：

请求这个地址：http://www.cnblogs.com/hlxs/mvc/blog/sidecolumn.aspx

传入参数blogApp=hlxs;(hlxs是我在博客园的ID)

这样就得到了我文章的所有分类，然后按照分类得到分类下的所有文章，在构造博客目录就简单了。在这个过程中只要知道某人在博客园的ID就能构造它的博客目录，我说一键构造你的博客目录不为过吧。

如果你也想构造你的博客目录，可以先看看我的博客目录，构造你的博客目录很简单，运行程序，输入你的博客园ID，会自动生成一个”我的博客目录.txt”，将文件的内容以源码的方式发表就行。

posted @ 2013-02-20 15:38 啊汉阅读(3249) 评论(12) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

一键构造你的博客目录

公告