摘要: 在完成得到某一年所有图片之后,不由得想优化一下:把国家地理历年来的每日图片都取回来。上网搜索了一下,国家地理每日图片是从2001年开始的,我们可以继续优化得到以下的代码:[代码]这个时候遇到一个问题,有些请求会返回HTTP Status 404, 就需要对response进行处理,不存在的文件要跳过。[代码]except语句可以打印出对应的链接,以及对应的error code,事后可以验证这种处理... 阅读全文
posted @ 2009-09-04 22:56 小楼 阅读(1082) 评论(0) 推荐(1) 编辑
摘要: 昨天的脚本(这里)在公司的XP系统下调试通过了,不知道为什么在我的Vista下还有点问题。 以下是一些总结: 1。 批量参数化图片地址 注意到我们请求地址一般是http://photography.nationalgeographic.com/ngs_pod_ext/searchPOD.jsp?month=09&day=04&year=2009&page= 然后页面会自动跳... 阅读全文
posted @ 2009-09-04 13:08 小楼 阅读(1492) 评论(2) 推荐(0) 编辑
摘要: 1. 利用urllib2.urlopen取得页面的内容 2. 利用正则表达式取得src标签为.jpg的URL 3. 保存图片 urllib2是python的一个获取url(Uniform Resource Locators,统一资源定址器)的模块。它用urlopen函数的形式提供了一个非常简洁的接口。这使得用各种各样的协议获取url成为可能。它同时 也提供了一个稍微复杂的接口来处理常见的状况-如基... 阅读全文
posted @ 2009-09-04 00:17 小楼 阅读(2724) 评论(4) 推荐(2) 编辑