摘要: 上一小节,我们实现了下载一个网页。接下来的一步就是使用提取有用的信息。如何提取呢?一个比较好用和常见的方法就是使用正则表达式来提取的。想一想我们要做个什么样的网络爬虫好呢?我记得以前好像博客园里面有人写过一个提取博客园用户名的博客。我这次就实现这个好了。 第一步我们要分析博客园一个URL的组成... 阅读全文
posted @ 2014-08-09 10:57 无脑仔的小明 阅读(2031) 评论(1) 推荐(4) 编辑