2017 年 8月随笔档案 - vhills

Python 模拟淘宝登录的两种方法

摘要：方法一、urllib的post登录方法二：通过selenium模拟浏览器登录参考http://blog.csdn.net/u010352695/article/details/40660133 http://www.cnblogs.com/linxiyue/p/3537557.html 阅读全文

posted @ 2017-08-26 22:49 vhills 阅读(3225) 评论(0) 推荐(0)

Python 下载图片的几种方法

摘要：总结下： url = 'http://img.pconline.com.cn/images/upload/upc/tx/photoblog/1707/31/c14/54293429_1501509923353_mthumb.jpg' 1、urllib库——urlretrieve 顺便提一下，repo 阅读全文

posted @ 2017-08-22 12:37 vhills 阅读(1392) 评论(0) 推荐(0)

Python 对cookies的处理——urllib2

摘要：运行之后就会输出访问百度的Cookie值： http://blog.csdn.net/SirM2z/article/details/46350721?locationNum=13&fps=1 urllib和urllib2 库 (网页下载) urllib 和 urllib2 库是学习Python爬虫最阅读全文

posted @ 2017-08-22 11:27 vhills 阅读(755) 评论(0) 推荐(0)

关于Python json解析过程遇到的TypeError: expected string or buffer

摘要：关于Python json解析过程遇到的问题：（爬取天气json数据所遇到的问题http://tianqi.2345.com/） part.1 url——http://tianqi.2345.com/t/wea_history/js/201708/60061_201708.js 返回的数据如下：这阅读全文

posted @ 2017-08-21 15:01 vhills 阅读(3016) 评论(1) 推荐(0)

Python re

摘要：http://blog.csdn.net/u014467169/article/details/51345657 http://www.cnblogs.com/dreamer-fish/p/5282679.html 阅读全文

posted @ 2017-08-21 12:27 vhills 阅读(91) 评论(0) 推荐(0)

Python Excel操作——xlrd、xlwd

摘要：读取 1、导入模块 import xlrd 2、打开Excel文件读取数据 data = xlrd.open_workbook('excel.xls') 3、获取一个工作表 4、获取整行和整列的值（返回数组） table.row_values(i) table.col_values(i) table 阅读全文

posted @ 2017-08-20 00:55 vhills 阅读(1436) 评论(0) 推荐(0)

Python selenium+phantomjs的js动态爬取

摘要：Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE、Mozilla Firefox、Chrome等。Phantom JS是一个服务器端的 JavaScript API 的 WebKit。其支持各种Web标准： D 阅读全文

posted @ 2017-08-18 10:54 vhills 阅读(264) 评论(0) 推荐(0)

python——代理ip获取

摘要：python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化，爬虫再反限制的一系列道高一尺魔高一丈的过程。爬虫的初级阶段，添加headers和ip代理可以解决很多问题。贴代码：说下思路 1、到http://www.xicidaili.com/nn/抓取相应的代理ip地址阅读全文

posted @ 2017-08-16 11:13 vhills 阅读(6712) 评论(0) 推荐(0)

python的name == \'main\' 意义

摘要：转自http://www.jb51.net/article/51892.htm 很多新手刚开始学习python的时候经常会看到python 中__name__ = \'__main__\' 这样的代码，可能很多新手一开始学习的时候都比较疑惑，python 中__name__ == '__main__ 阅读全文

posted @ 2017-08-15 13:24 vhills 阅读(310) 评论(0) 推荐(0)

python—— 写入错误UnicodeEncodeError的解决办法

摘要：在写python爬虫过程中，有时候吧结果写入到txt文件，但是会遇到UnicodeEncodeError。错误原因—— 把文件内容，写入到文件中时，出错了。而出错的原因其实是，python系统，在使用默认的编码类型，此处的ascii，去将对应的内容，写入到文件中。但是由于其中一些内容，asci 阅读全文

posted @ 2017-08-09 14:22 vhills 阅读(11621) 评论(0) 推荐(0)

python爬虫——简易天气爬取

摘要：通过爬虫，抓取http://www.weather.com.cn的天气信息功能——输入城市代码，获取当日天气，简单的beautifulsoup和requests实现。（城市代码可百度查询，不全部展示）代码如下：效果图：阅读全文

posted @ 2017-08-08 17:52 vhills 阅读(518) 评论(0) 推荐(0)

python爬虫——京东评论、jieba分词、wordcloud词云统计

摘要：接上一章，动态页面抓取——抓取京东评论区内容。 url=‘https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv399&productId=4560435&score=0&sortTy 阅读全文

posted @ 2017-08-07 00:35 vhills 阅读(899) 评论(0) 推荐(0)

python爬虫—— 抓取今日头条的街拍的妹子图

摘要：AJAX 是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换，AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。近期在学习获取js动态加载网页的爬虫，决定通过实例加深理解。 1、首先是url的研究（谷歌浏览器的审查功能） htt 阅读全文

posted @ 2017-08-06 19:50 vhills 阅读(4480) 评论(1) 推荐(1)

Python爬虫：获取JS动态内容

摘要：经过一段时间的python学习，能写出一些爬虫了。但是，遇到js动态加载的网页就犯了难。于是乎谷歌、百度，发现个好介绍http://www.jianshu.com/p/4fe8bb1ea984 主要就是分析网页的加载过程，从网页响应中找到JS脚本返回的JSON数据。（上边的网址介绍很详细，下边就直接阅读全文

posted @ 2017-08-04 23:42 vhills 阅读(4512) 评论(0) 推荐(0)

vhills

08 2017 档案