昨、夜星辰 - 博客园

2016年7月13日

摘要：备注：做这一步时系统会要求你输入“访问密钥ID”、“私有访问密钥”、“默认区域名称”、“默认输出格式”，前两个在创建IAM用户时会自动生成，“默认区域名称”最好选择你们EC2所在的区域，如果不清楚自己的EC2所在区域对应的字符串是什么，可参考我下面提供的链接，如果实在不想填也没问题，它会自动选择离你阅读全文

posted @ 2016-07-13 18:25 昨、夜星辰阅读(4913) 评论(0) 推荐(0)

2016年6月28日

pexpect正确的打开方式

摘要：今天在写一个Python脚本时遇到一个问题——同样的代码，在Python终端执行没问题，在脚本里执行却不行，就是下面这段代码：读者如果不信的话可以对以上代码进行修改测试。最后，通过百度，我找到了解决方法——就是在末尾加一行，最终的代码如下：为什么要加这一行才能成功，我还解释不了，有能人能解释的阅读全文

posted @ 2016-06-28 10:02 昨、夜星辰阅读(189) 评论(0) 推荐(0)

2016年6月15日

解密百度图片URL

摘要：今天想爬百度图片搜索，但因为爬出来的链接乱七八糟，有些打不开，对于我这个完美主义者而言，这实在是太残酷，但我还是把爬虫过程的核心部分——解密URL给记录下来了。下图是捕获的json数据的其中一条数据：图中蓝色框框中的内容就是图片的源URL，只是被百度加密了，我在网上查了一下，找到了一篇文章，我改阅读全文

posted @ 2016-06-15 15:34 昨、夜星辰阅读(616) 评论(0) 推荐(0)

2016年6月14日

实例——百度翻译

摘要： # -*- coding: UTF-8 -*- import requests print '1. 中译英' print '2. 英译中' while True: select = raw_input('请选择您需要的操作：') if select == '1': _from = 'zh' _to = 'en' break ... 阅读全文

posted @ 2016-06-14 13:49 昨、夜星辰阅读(311) 评论(0) 推荐(0)

解决爬虫中文乱码问题

摘要：今天群里有个人反映某个网址爬出来的网页源代码出现中文乱码，我研究了半天，终于找到了解决方法。一开始，我是这样做的：这样做，如果用命令行去运行，得到的内容中文显示正常，但如果用pycharm运行得到的确实乱码。这个问题我一时半会还不知道是为什么，如果有人知道，请告诉我，谢谢！后来，我在网上查阅阅读全文

posted @ 2016-06-14 11:45 昨、夜星辰阅读(9007) 评论(0) 推荐(1)

2016年6月6日

爬虫实例——爬取1元夺宝用户头像（借助谷歌浏览器开发者工具）

摘要：环境操作系统：Windows 7 Python版本：2.7.9 过程代码阅读全文

posted @ 2016-06-06 22:07 昨、夜星辰阅读(847) 评论(0) 推荐(0)

爬虫实例——爬取淘女郎相册（通过selenium、PhantomJS、BeautifulSoup爬取）

摘要：环境操作系统：CentOS 6.7 32-bit Python版本：2.6.6 第三方插件 selenium PhantomJS BeautifulSoup 代码阅读全文

posted @ 2016-06-06 15:44 昨、夜星辰阅读(601) 评论(0) 推荐(0)

爬虫实例——爬取淘女郎的相册（借助谷歌浏览器的开发者工具找出规律快速爬取）

摘要：用正常的方式（selenium、PhantomJS、BeautifulSoup）爬取淘女郎相册不仅困难，效率很低，而且很容易卡死。我借助谷歌浏览器的开发者工具找出每个页面的规律，快速获取每张照片的链接，再下载，这样效率就很高了。过程首页很简单，没有采用JS渲染，直接用requests就能获取完阅读全文

posted @ 2016-06-06 12:24 昨、夜星辰阅读(2319) 评论(0) 推荐(0)

2016年6月1日

爬虫实例——通过JS控制滚动条

摘要：案例某位淘女郎的某个相册有能力的童鞋可以先尝试一下爬取每张照片的链接。我曾经尝试过几种方法，下面一一介绍：第一种方法，采用requests和BeautifulSoup：通过这种方法是得不到任何照片的，因为这个网站的照片是通过JS加载的，requests获取的源代码只是最基本的源代码，里面不阅读全文

posted @ 2016-06-01 13:34 昨、夜星辰阅读(3105) 评论(0) 推荐(0)

2016年5月28日

破解wingide编辑器

摘要：先到官网下载最新版的wingide（我下载的是5.1.11-1），然后安装，打开，出现下面的界面时选第三个，然后输入“ENX27-HWM6G-XYVFA-165PG”，如下图所示：接下来你软件会给你反馈一个request code，如下图：复制这个request code，替换下面这个脚本的Re 阅读全文

posted @ 2016-05-28 19:54 昨、夜星辰阅读(1028) 评论(0) 推荐(0)