摘要: 1、使用python的库urllib2,用到urlopen和Request方法。2、方法urlopen原形urllib2.urlopen(url[, data][, timeout])其中:url表示目标网页地址,可以是字符串,也可以是请求对象Requestdata表示post方式提交给目标服务器的参数timeout表示超时时间设置改方法返回一个类似文件的对象,有geturl()、info()、read()方法其中geturl()返回连接地址,info()返回网页信息。要获取网页内容可以使用read()方法,read也可以带参数,表示读取内容的大小(字节)。>>>import 阅读全文
posted @ 2013-05-25 18:49 myLittleGarden 阅读(836) 评论(0) 推荐(0)
摘要: (转自:http://blog.163.com/code_fantasitic0/blog/static/187050004201262015616549/)学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过 自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox, 也就不用写了。-这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这 个半爬虫半网站的项目,累积不少爬虫抓站的经验,在此总结一下,那么以后做东 阅读全文
posted @ 2013-05-25 18:26 myLittleGarden 阅读(394) 评论(0) 推荐(0)
摘要: 本文简单介绍了各种常用的字符编码的特点,并介绍了在python2.x中如何与编码问题作战 :)请注意本文关于Python的内容仅适用于2.x,3.x中str和unicode有翻天覆地的变化,请查阅其他相关文档。尊重作者的劳动,转载请注明作者及原文地址 >.<转自 http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html1. 字符编码简介1.1. ASCIIASCII(American Standard Code for Information Interchange),是一种单字节的编码。计算机世界里一开始只有英文,而单 阅读全文
posted @ 2013-05-25 15:33 myLittleGarden 阅读(188) 评论(0) 推荐(0)