摘要: 今天我在爬取一个网页时出现了下面这个错误: UnicodeEncodeError: 'gbk' codec can't encode character u'\xa9' in position 24051: illegal multibyte sequence 从这个错误来看应该是编码时出错了,于是 阅读全文
posted @ 2016-05-24 19:51 昨、夜星辰 阅读(16844) 评论(0) 推荐(1) 编辑
摘要: 新建一个文件,命名为test.js,内容如下: 新建一个文件,命名为test.py,内容如下: 执行下列命令: 如果你能看到源代码,就表示没问题了。执行速度可能有点慢,请耐心等待。 阅读全文
posted @ 2016-05-20 11:49 昨、夜星辰 阅读(2516) 评论(0) 推荐(0) 编辑
摘要: 环境 操作系统:CentOS 6.7 32-bit 安装步骤 测试 在终端执行phantomjs命令,如果跟我下图的结果一样就表示安装成功了。 如果你还不放心的话,可以创建一个JS文件测试一下。文件内容如下: 保存为test.js,然后通过phantomjs test.js执行。下图是我执行的结果: 阅读全文
posted @ 2016-05-20 10:38 昨、夜星辰 阅读(13649) 评论(0) 推荐(0) 编辑
摘要: 首先,通过top命令找出CPU占用率高的进程: 然后,通过ps -o THREAD,tid,time -mp 2066命令找出执行时间最长的线程的TID 将有问题的TID转为16进制格式: printf "%x\n" TID 最后,通过jstack 2066 | grep --color -E '2 阅读全文
posted @ 2016-05-18 09:42 昨、夜星辰 阅读(531) 评论(0) 推荐(0) 编辑
摘要: 煎蛋网在反爬虫方面做了不少工作,无法通过正常的方式爬取,比如用下面这段代码爬取无法得到我们想要的源代码。 执行上述代码,你得到的结果应该跟我一样: 煎蛋网应该是通过检测headers来判断是否爬虫,要想获取正常的源代码,需要伪装成浏览器。 当然,这个爬虫脚本也不是永久有效,说不定哪天煎蛋就出新招了, 阅读全文
posted @ 2016-05-17 12:05 昨、夜星辰 阅读(3875) 评论(0) 推荐(0) 编辑
摘要: # -*- coding: utf-8 -*- import requests import sys reload(sys) sys.setdefaultencoding('utf8') def get_weather_data(): while True: city = raw_input('请输入您想查询的城市名称:') if city: ... 阅读全文
posted @ 2016-05-16 09:22 昨、夜星辰 阅读(256) 评论(0) 推荐(0) 编辑
摘要: # -*- coding: utf-8 -*- import json import requests import sys reload(sys) sys.setdefaultencoding('utf8') def translate(sentence): url = 'http://fanyi.youdao.com/translate?smartresult=dict&sma... 阅读全文
posted @ 2016-05-13 17:13 昨、夜星辰 阅读(208) 评论(0) 推荐(0) 编辑
摘要: # -*- coding: utf-8 -*- import os import re import shutil import requests from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding('utf8') def get_soup(url): text = requests.... 阅读全文
posted @ 2016-05-13 15:51 昨、夜星辰 阅读(280) 评论(0) 推荐(0) 编辑
摘要: 用requests获取源代码时,如果是中文网页,就可能会出现乱码,下面我以中关村的网站为例: 执行上面这个脚本你会看到中文部分都变成乱码。 通过上面的代码你会发现从requests获取到的编码是ISO-8859-1,而该网页的编码是gb2312,所以打印出来的编码就都变成乱码了,那么该如何解决这个问 阅读全文
posted @ 2016-05-12 15:43 昨、夜星辰 阅读(4193) 评论(0) 推荐(0) 编辑
摘要: 环境 操作系统:CentOS 6.7 32-bit Python:2.6.6 安装 阅读全文
posted @ 2016-05-12 14:44 昨、夜星辰 阅读(220) 评论(0) 推荐(0) 编辑