摘要: 今天想从wikitionay抓些网页,以取回需要的信息。但是用urllib抓取时总是返回错误网页,server problem。研究了下发现从浏览器打开网页倒是一切正常,估计是wiki拒绝一切非浏览器的access,于是只能曲径通幽,用python模拟浏览器下载网页了。查了一些例子,不过大多都是模拟ie浏览器的,但是由于我的系统是linux,这些例子完全没法使用。好不容易挖到一位牛人模拟firefox的代码,于是稍加修改,成功弄到了网页代码。from urllib import FancyURLopenerclass MyOpener(FancyURLopener): version = 阅读全文
posted @ 2011-06-27 19:21 cactuswisper 阅读(1195) 评论(2) 推荐(0) 编辑