摘要:
建立一个网络爬虫程序,最重要的事情就是:明确我要抓取什么,以及怎样抓取。大部分情况下,我们会希望抓取到网页中包含某些关键字的内容或者某些url,首先要实现的是对单个网页实行抓取。我们以一个具体的应用为例:如何的得到cnblog中某个人博客中所有随笔的题目以及连接。首先,我们要得到需要进行爬虫操作的网页地址,通过python系统库内的urllib2这个Module获得对应的HTML源码。import urllib2contents = urllib2.urlopen("http://www.baidu.com").read()print contents通过上面这三句就可以将 阅读全文
posted @ 2013-03-11 19:54
Sayary
阅读(5135)
评论(3)
推荐(1)

浙公网安备 33010602011771号