12 2012 档案
摘要:编码的问题算是解决了一部分了。。我在解码时使用page.decode('gb2312','ignore'),将无法解码的东西变成?,虽然爬下来的网页,关于中文部分全是乱码,不过起码可以正常提取url了。# -*- coding: gb2312 -*-import urllib.requestdef getContent(url): f=urllib.request.urlopen(url) page=f.read() page=page.decode('gbk','ignore'); return pagedef getUrl(p
阅读全文
摘要:介绍:所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样。上面介绍的只是爬虫的一些概念而非搜索引擎,实际上搜索引擎的话其系统是相当复杂的,爬虫只是搜索引擎的一个子系统而已。下
阅读全文
摘要:最近打算写一个爬虫,两个目的,学会python,写出知道创宇的题。我下了一个python3.3。里面有一个编辑器IDLE。首先,作为一个爬虫,他要具有爬取网页源码的功能。python自带的urllib库中的request.py文件中有这个函数,URLOPEN(url)。(不同于以往的版本,urllib的库更加像一个。。网络client和server的函数库角色)其次,为了爬取更多的网页源码,我需要得到更多的URL,所以我需要从跟网页的源码中获得,方法有两个,1.提取<a href value=后面的内容。2.利用正则匹配表达式,提取http://的信息目前的进展时,我完成了这两步,只不过
阅读全文
浙公网安备 33010602011771号