数据人生

博客园 首页 新随笔 联系 订阅 管理

2008年8月5日 #

摘要: 阅读全文
posted @ 2008-08-05 16:32 大嘴鳄鱼 阅读(441) 评论(0) 推荐(0) 编辑

摘要: 用Python语言写搜索引擎蜘蛛的脚本非常简单、轻松。给大家分享两种抓网页内容的方法 一、用urllib2/sgmllib包,将目标网页的所有URL列出。 import urllib2 from sgmllib import SGMLParser class URLLister(SGMLParser): def reset(self): ... 阅读全文
posted @ 2008-08-05 13:33 大嘴鳄鱼 阅读(3508) 评论(8) 推荐(1) 编辑

摘要: PAMIE 是一个很有意思的模块。它是一个实现IE自动化的模块。在此之前我使用过ClientCookie这个模块,它可以使用urllib2来通过程序访问页面,并且很适合在需要cookie支持的环境中。不过,有些web的访问过程并不仅仅是下载文件这样的事情,有时是一系统的动作。PAMIE应该是一个更直观,更简单的模拟手工输入的过程。不过,局限就是它只支持IE,在某些特殊情况下还是可以的。 使用它的... 阅读全文
posted @ 2008-08-05 09:43 大嘴鳄鱼 阅读(2376) 评论(1) 推荐(0) 编辑