摘要: 备注:做这一步时系统会要求你输入“访问密钥ID”、“私有访问密钥”、“默认区域名称”、“默认输出格式”,前两个在创建IAM用户时会自动生成,“默认区域名称”最好选择你们EC2所在的区域,如果不清楚自己的EC2所在区域对应的字符串是什么,可参考我下面提供的链接,如果实在不想填也没问题,它会自动选择离你 阅读全文
posted @ 2016-07-13 18:25 昨、夜星辰 阅读(4908) 评论(0) 推荐(0)
摘要: 今天在写一个Python脚本时遇到一个问题——同样的代码,在Python终端执行没问题,在脚本里执行却不行,就是下面这段代码: 读者如果不信的话可以对以上代码进行修改测试。 最后,通过百度,我找到了解决方法——就是在末尾加一行,最终的代码如下: 为什么要加这一行才能成功,我还解释不了,有能人能解释的 阅读全文
posted @ 2016-06-28 10:02 昨、夜星辰 阅读(187) 评论(0) 推荐(0)
摘要: 今天想爬百度图片搜索,但因为爬出来的链接乱七八糟,有些打不开,对于我这个完美主义者而言,这实在是太残酷,但我还是把爬虫过程的核心部分——解密URL给记录下来了。 下图是捕获的json数据的其中一条数据: 图中蓝色框框中的内容就是图片的源URL,只是被百度加密了,我在网上查了一下,找到了一篇文章,我改 阅读全文
posted @ 2016-06-15 15:34 昨、夜星辰 阅读(613) 评论(0) 推荐(0)
摘要: # -*- coding: UTF-8 -*- import requests print '1. 中译英' print '2. 英译中' while True: select = raw_input('请选择您需要的操作:') if select == '1': _from = 'zh' _to = 'en' break ... 阅读全文
posted @ 2016-06-14 13:49 昨、夜星辰 阅读(310) 评论(0) 推荐(0)
摘要: 今天群里有个人反映某个网址爬出来的网页源代码出现中文乱码,我研究了半天,终于找到了解决方法。 一开始,我是这样做的: 这样做,如果用命令行去运行,得到的内容中文显示正常,但如果用pycharm运行得到的确实乱码。 这个问题我一时半会还不知道是为什么,如果有人知道,请告诉我,谢谢! 后来,我在网上查阅 阅读全文
posted @ 2016-06-14 11:45 昨、夜星辰 阅读(9003) 评论(0) 推荐(1)
摘要: 环境 操作系统:Windows 7 Python版本:2.7.9 过程 代码 阅读全文
posted @ 2016-06-06 22:07 昨、夜星辰 阅读(844) 评论(0) 推荐(0)
摘要: 环境 操作系统:CentOS 6.7 32-bit Python版本:2.6.6 第三方插件 selenium PhantomJS BeautifulSoup 代码 阅读全文
posted @ 2016-06-06 15:44 昨、夜星辰 阅读(599) 评论(0) 推荐(0)
摘要: 用正常的方式(selenium、PhantomJS、BeautifulSoup)爬取淘女郎相册不仅困难,效率很低,而且很容易卡死。 我借助谷歌浏览器的开发者工具找出每个页面的规律,快速获取每张照片的链接,再下载,这样效率就很高了。 过程 首页很简单,没有采用JS渲染,直接用requests就能获取完 阅读全文
posted @ 2016-06-06 12:24 昨、夜星辰 阅读(2318) 评论(0) 推荐(0)
摘要: 案例 某位淘女郎的某个相册 有能力的童鞋可以先尝试一下爬取每张照片的链接。 我曾经尝试过几种方法,下面一一介绍: 第一种方法,采用requests和BeautifulSoup: 通过这种方法是得不到任何照片的,因为这个网站的照片是通过JS加载的,requests获取的源代码只是最基本的源代码,里面不 阅读全文
posted @ 2016-06-01 13:34 昨、夜星辰 阅读(3104) 评论(0) 推荐(0)
摘要: 先到官网下载最新版的wingide(我下载的是5.1.11-1),然后安装,打开,出现下面的界面时选第三个,然后输入“ENX27-HWM6G-XYVFA-165PG”,如下图所示: 接下来你软件会给你反馈一个request code,如下图: 复制这个request code,替换下面这个脚本的Re 阅读全文
posted @ 2016-05-28 19:54 昨、夜星辰 阅读(1019) 评论(0) 推荐(0)