导航

2011年5月12日

摘要: fromhttp://obmem.info/?p=753以前写过一篇使用python爬虫抓站的一些技巧总结,总结了诸多爬虫使用的方法;那篇东东现在看来还是挺有用的,但是当时很菜(现在也菜,但是比那时进步了不少),很多东西都不是很优,属于”只是能用”这么个层次。这篇进阶篇打算把“能用”提升到“用得省事省心”这个层次。一、gzip/deflate支持现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,以VeryCD的主页为例,未压缩版本247K,压缩了以后45K,为原来的1/5。这就意味着抓取速度会快5倍。然而python的urllib/urllib2默认都不支持压缩,要返回压缩格式,必须 阅读全文

posted @ 2011-05-12 23:16 Morya 阅读(1111) 评论(0) 推荐(0) 编辑

摘要: fromhttp://obmem.info/?p=476学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox,也就不用写了。-这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这个半爬虫半网站的项目,累积不少爬虫抓站的经验,在此总结一下,那么以后做东西也就不用重复劳动了。-1.最基本的抓站import urllib2content = urllib2.ur 阅读全文

posted @ 2011-05-12 23:15 Morya 阅读(840) 评论(0) 推荐(0) 编辑

摘要: copy from http://hi.baidu.com/chjj910/blog/item/7db5c24fbc699d19b2de0540.htmlpython基于http协议编程:httplib,urllib和urllib2(转)2010-11-11 20:47httplib实现了HTTP和HTTPS的客户端协议,一般不直接使用,在python更高层的封装模块中(urllib,urllib2)使用了它的http实现。importhttplibconn=httplib.HTTPConnection("google.com")conn.request('get& 阅读全文

posted @ 2011-05-12 23:06 Morya 阅读(13342) 评论(0) 推荐(0) 编辑