2009 年 9月 4 日随笔档案 - 小楼

2009年9月4日

摘要：在完成得到某一年所有图片之后，不由得想优化一下：把国家地理历年来的每日图片都取回来。上网搜索了一下，国家地理每日图片是从2001年开始的，我们可以继续优化得到以下的代码：[代码]这个时候遇到一个问题，有些请求会返回HTTP Status 404，就需要对response进行处理，不存在的文件要跳过。[代码]except语句可以打印出对应的链接，以及对应的error code，事后可以验证这种处理... 阅读全文

posted @ 2009-09-04 22:56 小楼阅读(1092) 评论(0) 推荐(1)

提取国家地理图片总结

摘要：昨天的脚本(这里)在公司的XP系统下调试通过了，不知道为什么在我的Vista下还有点问题。以下是一些总结： 1。批量参数化图片地址注意到我们请求地址一般是http://photography.nationalgeographic.com/ngs_pod_ext/searchPOD.jsp?month=09&day=04&year=2009&page= 然后页面会自动跳... 阅读全文

posted @ 2009-09-04 13:08 小楼阅读(1502) 评论(2) 推荐(0)

[脚本收集]提取国家地理图片

摘要： 1. 利用urllib2.urlopen取得页面的内容 2. 利用正则表达式取得src标签为.jpg的URL 3. 保存图片 urllib2是python的一个获取url（Uniform Resource Locators，统一资源定址器）的模块。它用urlopen函数的形式提供了一个非常简洁的接口。这使得用各种各样的协议获取url成为可能。它同时也提供了一个稍微复杂的接口来处理常见的状况-如基... 阅读全文

posted @ 2009-09-04 00:17 小楼阅读(2742) 评论(4) 推荐(2)

公告