摘要: 对于网页爬取结果为json格式的,可以直接使用python的json库解析,获取相应字段的值,比用正则匹配更简单规范。 阅读全文
posted @ 2017-07-13 09:38 桃乐丝 阅读(289) 评论(0) 推荐(0)
摘要: 使用python的requests库爬取网页时,获取文本一般使用text方法,如果要获取图片并保存要用content 举个栗子,爬煎蛋网的图: 考虑到如果图片很大,获取需要时间,设置timeout超时避免内容取不完整。 写文件内容为r_img.content 打开文件的方式使用wb+,二进制文件覆盖 阅读全文
posted @ 2017-07-13 09:30 桃乐丝 阅读(324) 评论(0) 推荐(0)
摘要: 对某些网站的登录包进行抓包时发现,客户端对用户名进行了加密,然后传给服务器进行校验。 使用chrome调试功能断点调试,发现网站用javascript对用户名做了rsa加密。 为了实现网站的自动登录,需要模拟这个加密过程。 网上搜了下关于rsa加密的最简明的解释: rsa加密是非对称加密算法,该算法 阅读全文
posted @ 2017-06-23 17:49 桃乐丝 阅读(5479) 评论(4) 推荐(2)
摘要: #中文字符gbk转utf-8 def gbk2utf8(self,raw): rs=raw.encode('raw_unicode_escape') #转为机器识别字符串 s=repr(rs) ss=unicode(eval(s),"gbk") #gbk解码为unicode utf8_str=ss.encode('u... 阅读全文
posted @ 2017-06-15 15:47 桃乐丝 阅读(1804) 评论(0) 推荐(0)
摘要: 工作需要实现一个微博自动登录的操作,在网上差了一些资料,决定使用selenium+python实现 selenium 是一个web的自动化测试工具,主流一般配合java或者python使用,我这里使用的是python,可支持的浏览器基本包括所有主流浏览器IE、Mozilla Firefox、Goog 阅读全文
posted @ 2017-06-14 14:51 桃乐丝 阅读(11502) 评论(0) 推荐(0)
摘要: from scrapy.spider import CrawlSpider 报错 import module CrawlSpider error 看了下以前一直用的scrapy0.14.1 使用的是BaseSpider,估计是版本太久造成的 下载了scrapy 1.3 (安装过程中有很多依赖,按照报 阅读全文
posted @ 2017-06-05 15:04 桃乐丝 阅读(524) 评论(0) 推荐(0)
摘要: fiddler通过监听系统的8888端口实现对系统浏览器发出的http报文进行截获监听,因此要使fiddler能够监听到浏览器数据,需要对浏览器设置代理端口 浏览器 <--8888端口代理--> Fiddler < > 服务器 以常用的chrome为例: 阅读全文
posted @ 2017-05-17 14:28 桃乐丝 阅读(1451) 评论(0) 推荐(0)
摘要: 引子: 使用python爬虫对爬取网页进行解析的时候,如果使用正则表达式,有很多局限,比如标签中出现换行,或者标签的格式不规范,都有可能出现取不到数据,BeautifulSoup作为一个专门处理html格式的python第三方库,在格式处理上要明显优与正则表达式,而且使用简便。 安装: 下载beau 阅读全文
posted @ 2017-05-17 14:08 桃乐丝 阅读(273) 评论(0) 推荐(0)
摘要: 一 redis客户端命令 cmd进入redis客户端管理程序路径xx:\windows redis\redis-2.4.0-win32-win64\64bit 执行:redis-cli.exe -h 117.34.95.3 -p 6379 (-p 6379 可以省略) dbsize:查看redis数 阅读全文
posted @ 2016-12-26 11:57 桃乐丝 阅读(207) 评论(0) 推荐(0)
摘要: 1 安装python2.7 添加环境变量:path=D:\Program Files (x86)\python;D:\Program Files (x86)\python\Scripts; 验证: 2 安装Twisted 1) 安装setuptools 下载地址:http://pypi.python 阅读全文
posted @ 2016-11-30 15:33 桃乐丝 阅读(190) 评论(0) 推荐(0)