08 2017 档案

Python 模拟淘宝登录的两种方法
摘要:方法一、urllib的post登录 方法二:通过selenium模拟浏览器登录 参考http://blog.csdn.net/u010352695/article/details/40660133 http://www.cnblogs.com/linxiyue/p/3537557.html 阅读全文

posted @ 2017-08-26 22:49 vhills 阅读(3225) 评论(0) 推荐(0)

Python 下载图片的几种方法
摘要:总结下: url = 'http://img.pconline.com.cn/images/upload/upc/tx/photoblog/1707/31/c14/54293429_1501509923353_mthumb.jpg' 1、urllib库——urlretrieve 顺便提一下,repo 阅读全文

posted @ 2017-08-22 12:37 vhills 阅读(1392) 评论(0) 推荐(0)

Python 对cookies的处理——urllib2
摘要:运行之后就会输出访问百度的Cookie值: http://blog.csdn.net/SirM2z/article/details/46350721?locationNum=13&fps=1 urllib和urllib2 库 (网页下载) urllib 和 urllib2 库是学习Python爬虫最 阅读全文

posted @ 2017-08-22 11:27 vhills 阅读(755) 评论(0) 推荐(0)

关于Python json解析过程遇到的TypeError: expected string or buffer
摘要:关于Python json解析过程遇到的问题:(爬取天气json数据所遇到的问题http://tianqi.2345.com/) part.1 url——http://tianqi.2345.com/t/wea_history/js/201708/60061_201708.js 返回的数据如下: 这 阅读全文

posted @ 2017-08-21 15:01 vhills 阅读(3016) 评论(1) 推荐(0)

Python re
摘要:http://blog.csdn.net/u014467169/article/details/51345657 http://www.cnblogs.com/dreamer-fish/p/5282679.html 阅读全文

posted @ 2017-08-21 12:27 vhills 阅读(91) 评论(0) 推荐(0)

Python Excel操作——xlrd、xlwd
摘要:读取 1、导入模块 import xlrd 2、打开Excel文件读取数据 data = xlrd.open_workbook('excel.xls') 3、获取一个工作表 4、获取整行和整列的值(返回数组) table.row_values(i) table.col_values(i) table 阅读全文

posted @ 2017-08-20 00:55 vhills 阅读(1436) 评论(0) 推荐(0)

Python selenium+phantomjs的js动态爬取
摘要:Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE、Mozilla Firefox、Chrome等。Phantom JS是一个服务器端的 JavaScript API 的 WebKit。其支持各种Web标准: D 阅读全文

posted @ 2017-08-18 10:54 vhills 阅读(264) 评论(0) 推荐(0)

python——代理ip获取
摘要:python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化,爬虫再反限制的一系列道高一尺魔高一丈的过程。 爬虫的初级阶段,添加headers和ip代理可以解决很多问题。 贴代码:说下思路 1、到http://www.xicidaili.com/nn/抓取相应的代理ip地址 阅读全文

posted @ 2017-08-16 11:13 vhills 阅读(6712) 评论(0) 推荐(0)

python的__name__ == \'__main__\' 意义
摘要:转自http://www.jb51.net/article/51892.htm 很多新手刚开始学习python的时候经常会看到python 中__name__ = \'__main__\' 这样的代码,可能很多新手一开始学习的时候都比较疑惑,python 中__name__ == '__main__ 阅读全文

posted @ 2017-08-15 13:24 vhills 阅读(310) 评论(0) 推荐(0)

python—— 写入错误UnicodeEncodeError的解决办法
摘要:在写python爬虫过程中,有时候吧结果写入到txt文件,但是会遇到UnicodeEncodeError。 错误原因—— 把文件内容,写入到文件中时,出错了。 而出错的原因其实是,python系统,在使用默认的编码类型,此处的ascii,去将对应的内容,写入到文件中。 但是由于其中一些内容,asci 阅读全文

posted @ 2017-08-09 14:22 vhills 阅读(11621) 评论(0) 推荐(0)

python爬虫——简易天气爬取
摘要:通过爬虫,抓取http://www.weather.com.cn的天气信息 功能——输入城市代码,获取当日天气,简单的beautifulsoup和requests实现。(城市代码可百度查询,不全部展示) 代码如下: 效果图: 阅读全文

posted @ 2017-08-08 17:52 vhills 阅读(518) 评论(0) 推荐(0)

python爬虫——京东评论、jieba分词、wordcloud词云统计
摘要:接上一章,动态页面抓取——抓取京东评论区内容。 url=‘https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv399&productId=4560435&score=0&sortTy 阅读全文

posted @ 2017-08-07 00:35 vhills 阅读(899) 评论(0) 推荐(0)

python爬虫—— 抓取今日头条的街拍的妹子图
摘要:AJAX 是一种用于创建快速动态网页的技术。 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。 近期在学习获取js动态加载网页的爬虫,决定通过实例加深理解。 1、首先是url的研究(谷歌浏览器的审查功能) htt 阅读全文

posted @ 2017-08-06 19:50 vhills 阅读(4480) 评论(1) 推荐(1)

Python爬虫:获取JS动态内容
摘要:经过一段时间的python学习,能写出一些爬虫了。但是,遇到js动态加载的网页就犯了难。于是乎谷歌、百度,发现个好介绍http://www.jianshu.com/p/4fe8bb1ea984 主要就是分析网页的加载过程,从网页响应中找到JS脚本返回的JSON数据。(上边的网址介绍很详细,下边就直接 阅读全文

posted @ 2017-08-04 23:42 vhills 阅读(4512) 评论(0) 推荐(0)