2011 年 5月 12 日随笔档案 - Morya

【转帖】使用python爬虫抓站的一些技巧总结：进阶篇

摘要： fromhttp://obmem.info/?p=753以前写过一篇使用python爬虫抓站的一些技巧总结，总结了诸多爬虫使用的方法；那篇东东现在看来还是挺有用的，但是当时很菜（现在也菜，但是比那时进步了不少），很多东西都不是很优，属于”只是能用”这么个层次。这篇进阶篇打算把“能用”提升到“用得省事省心”这个层次。一、gzip/deflate支持现在的网页普遍支持gzip压缩，这往往可以解决大量传输时间，以VeryCD的主页为例，未压缩版本247K，压缩了以后45K，为原来的1/5。这就意味着抓取速度会快5倍。然而python的urllib/urllib2默认都不支持压缩，要返回压缩格式，必须阅读全文

posted @ 2011-05-12 23:16 Morya 阅读(1111) 评论(0) 推荐(0) 编辑

【转帖】用python爬虫抓站的一些技巧总结

摘要： fromhttp://obmem.info/?p=476学用python也有3个多月了，用得最多的还是各类爬虫脚本：写过抓代理本机验证的脚本，写过在discuz论坛中自动登录自动发贴的脚本，写过自动收邮件的脚本，写过简单的验证码识别的脚本，本来想写google music的抓取脚本的，结果有了强大的gmbox，也就不用写了。-这些脚本有一个共性，都是和web相关的，总要用到获取链接的一些方法，再加上simplecd这个半爬虫半网站的项目，累积不少爬虫抓站的经验，在此总结一下，那么以后做东西也就不用重复劳动了。-1.最基本的抓站import urllib2content = urllib2.ur 阅读全文

posted @ 2011-05-12 23:15 Morya 阅读(840) 评论(0) 推荐(0) 编辑

python urllib2 httplib HTTPConnection

摘要： copy from http://hi.baidu.com/chjj910/blog/item/7db5c24fbc699d19b2de0540.htmlpython基于http协议编程：httplib,urllib和urllib2(转)2010-11-11 20:47httplib实现了HTTP和HTTPS的客户端协议，一般不直接使用，在python更高层的封装模块中（urllib,urllib2）使用了它的http实现。importhttplibconn=httplib.HTTPConnection("google.com")conn.request('get& 阅读全文

posted @ 2011-05-12 23:06 Morya 阅读(13342) 评论(0) 推荐(0) 编辑

Morya

导航

公告

【转帖】使用python爬虫抓站的一些技巧总结：进阶篇

【转帖】用python爬虫抓站的一些技巧总结

python urllib2 httplib HTTPConnection