随笔档案「2012年12月」 - derekDoMo

python爬虫-12-24

摘要：编码的问题算是解决了一部分了。。我在解码时使用page.decode('gb2312','ignore')，将无法解码的东西变成？，虽然爬下来的网页，关于中文部分全是乱码，不过起码可以正常提取url了。# -*- coding: gb2312 -*-import urllib.requestdef getContent(url): f=urllib.request.urlopen(url) page=f.read() page=page.decode('gbk','ignore'); return pagedef getUrl(p 阅读全文

posted @ 2012-12-24 20:00 derekDoMo 阅读(246) 评论(0) 推荐(0)

开源python网络爬虫框架Scrapy(转)

摘要：介绍：所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法不够专业，更专业的描述就是，抓取特定网站网页的HTML数据。不过由于一个网站的网页很多，而我们又不可能事先知道所有网页的URL地址，所以，如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是，定义一个入口页面，然后一般一个页面会有其他页面的URL，于是从当前页面获取到这些URL加入到爬虫的抓取队列中，然后进入到新新页面后再递归的进行上述的操作，其实说来就跟深度遍历或广度遍历一样。上面介绍的只是爬虫的一些概念而非搜索引擎，实际上搜索引擎的话其系统是相当复杂的，爬虫只是搜索引擎的一个子系统而已。下阅读全文

posted @ 2012-12-23 11:52 derekDoMo 阅读(931) 评论(0) 推荐(0)

python爬虫-12-23

摘要：最近打算写一个爬虫，两个目的，学会python，写出知道创宇的题。我下了一个python3.3。里面有一个编辑器IDLE。首先，作为一个爬虫，他要具有爬取网页源码的功能。python自带的urllib库中的request.py文件中有这个函数，URLOPEN(url)。(不同于以往的版本，urllib的库更加像一个。。网络client和server的函数库角色)其次，为了爬取更多的网页源码，我需要得到更多的URL，所以我需要从跟网页的源码中获得，方法有两个，1.提取<a href value=后面的内容。2.利用正则匹配表达式，提取http://的信息目前的进展时，我完成了这两步，只不过阅读全文

posted @ 2012-12-23 00:24 derekDoMo 阅读(447) 评论(0) 推荐(0)

12 2012 档案

公告