桃乐丝 - 博客园

2017年7月13日

摘要：对于网页爬取结果为json格式的，可以直接使用python的json库解析，获取相应字段的值，比用正则匹配更简单规范。阅读全文

posted @ 2017-07-13 09:38 桃乐丝阅读(289) 评论(0) 推荐(0)

摘要：使用python的requests库爬取网页时，获取文本一般使用text方法，如果要获取图片并保存要用content 举个栗子，爬煎蛋网的图：考虑到如果图片很大，获取需要时间，设置timeout超时避免内容取不完整。写文件内容为r_img.content 打开文件的方式使用wb+，二进制文件覆盖阅读全文

posted @ 2017-07-13 09:30 桃乐丝阅读(324) 评论(0) 推荐(0)

2017年6月23日

python实现网页登录时的rsa加密流程

摘要：对某些网站的登录包进行抓包时发现，客户端对用户名进行了加密，然后传给服务器进行校验。使用chrome调试功能断点调试，发现网站用javascript对用户名做了rsa加密。为了实现网站的自动登录，需要模拟这个加密过程。网上搜了下关于rsa加密的最简明的解释： rsa加密是非对称加密算法，该算法阅读全文

posted @ 2017-06-23 17:49 桃乐丝阅读(5479) 评论(4) 推荐(2)

2017年6月15日

python 处理html文本的中文字符gbk转utf-8

摘要： #中文字符gbk转utf-8 def gbk2utf8(self,raw): rs=raw.encode('raw_unicode_escape') #转为机器识别字符串 s=repr(rs) ss=unicode(eval(s),"gbk") #gbk解码为unicode utf8_str=ss.encode('u... 阅读全文

posted @ 2017-06-15 15:47 桃乐丝阅读(1804) 评论(0) 推荐(0)

2017年6月14日

selenium+python实现自动化登录

摘要：工作需要实现一个微博自动登录的操作，在网上差了一些资料，决定使用selenium+python实现 selenium 是一个web的自动化测试工具，主流一般配合java或者python使用，我这里使用的是python，可支持的浏览器基本包括所有主流浏览器IE、Mozilla Firefox、Goog 阅读全文

posted @ 2017-06-14 14:51 桃乐丝阅读(11502) 评论(0) 推荐(0)

2017年6月5日

scrapy import CrawlSpider 报错

摘要： from scrapy.spider import CrawlSpider 报错 import module CrawlSpider error 看了下以前一直用的scrapy0.14.1 使用的是BaseSpider，估计是版本太久造成的下载了scrapy 1.3 (安装过程中有很多依赖，按照报阅读全文

posted @ 2017-06-05 15:04 桃乐丝阅读(524) 评论(0) 推荐(0)

2017年5月17日

fiddler的代理设置

摘要： fiddler通过监听系统的8888端口实现对系统浏览器发出的http报文进行截获监听，因此要使fiddler能够监听到浏览器数据，需要对浏览器设置代理端口浏览器 <--8888端口代理--> Fiddler < > 服务器以常用的chrome为例：阅读全文

posted @ 2017-05-17 14:28 桃乐丝阅读(1451) 评论(0) 推荐(0)

html解析のBeautifulSoup

摘要：引子：使用python爬虫对爬取网页进行解析的时候，如果使用正则表达式，有很多局限，比如标签中出现换行，或者标签的格式不规范，都有可能出现取不到数据，BeautifulSoup作为一个专门处理html格式的python第三方库，在格式处理上要明显优与正则表达式，而且使用简便。安装：下载beau 阅读全文

posted @ 2017-05-17 14:08 桃乐丝阅读(273) 评论(0) 推荐(0)

2016年12月26日

redis-py相关

摘要：一 redis客户端命令 cmd进入redis客户端管理程序路径xx:\windows redis\redis-2.4.0-win32-win64\64bit 执行：redis-cli.exe -h 117.34.95.3 -p 6379 (-p 6379 可以省略) dbsize：查看redis数阅读全文

posted @ 2016-12-26 11:57 桃乐丝阅读(207) 评论(0) 推荐(0)

2016年11月30日

scrapy安装

摘要： 1 安装python2.7 添加环境变量：path=D:\Program Files (x86)\python;D:\Program Files (x86)\python\Scripts; 验证： 2 安装Twisted 1) 安装setuptools 下载地址：http://pypi.python 阅读全文

posted @ 2016-11-30 15:33 桃乐丝阅读(190) 评论(0) 推荐(0)

笔记本

公告