2013 年 3月 11 日随笔档案 - Sayary

2013年3月11日

摘要：建立一个网络爬虫程序，最重要的事情就是：明确我要抓取什么，以及怎样抓取。大部分情况下，我们会希望抓取到网页中包含某些关键字的内容或者某些url，首先要实现的是对单个网页实行抓取。我们以一个具体的应用为例：如何的得到cnblog中某个人博客中所有随笔的题目以及连接。首先，我们要得到需要进行爬虫操作的网页地址，通过python系统库内的urllib2这个Module获得对应的HTML源码。import urllib2contents = urllib2.urlopen("http://www.baidu.com").read()print contents通过上面这三句就可以将阅读全文

posted @ 2013-03-11 19:54 Sayary 阅读(5144) 评论(3) 推荐(1)

Sayary

公告