摘要:方法一、urllib的post登录 方法二:通过selenium模拟浏览器登录 参考http://blog.csdn.net/u010352695/article/details/40660133 http://www.cnblogs.com/linxiyue/p/3537557.html
阅读全文
摘要:总结下: url = 'http://img.pconline.com.cn/images/upload/upc/tx/photoblog/1707/31/c14/54293429_1501509923353_mthumb.jpg' 1、urllib库——urlretrieve 顺便提一下,repo
阅读全文
摘要:运行之后就会输出访问百度的Cookie值: http://blog.csdn.net/SirM2z/article/details/46350721?locationNum=13&fps=1 urllib和urllib2 库 (网页下载) urllib 和 urllib2 库是学习Python爬虫最
阅读全文
摘要:关于Python json解析过程遇到的问题:(爬取天气json数据所遇到的问题http://tianqi.2345.com/) part.1 url——http://tianqi.2345.com/t/wea_history/js/201708/60061_201708.js 返回的数据如下: 这
阅读全文
摘要:http://blog.csdn.net/u014467169/article/details/51345657 http://www.cnblogs.com/dreamer-fish/p/5282679.html
阅读全文
摘要:读取 1、导入模块 import xlrd 2、打开Excel文件读取数据 data = xlrd.open_workbook('excel.xls') 3、获取一个工作表 4、获取整行和整列的值(返回数组) table.row_values(i) table.col_values(i) table
阅读全文
摘要:Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE、Mozilla Firefox、Chrome等。Phantom JS是一个服务器端的 JavaScript API 的 WebKit。其支持各种Web标准: D
阅读全文
摘要:python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化,爬虫再反限制的一系列道高一尺魔高一丈的过程。 爬虫的初级阶段,添加headers和ip代理可以解决很多问题。 贴代码:说下思路 1、到http://www.xicidaili.com/nn/抓取相应的代理ip地址
阅读全文
摘要:转自http://www.jb51.net/article/51892.htm 很多新手刚开始学习python的时候经常会看到python 中__name__ = \'__main__\' 这样的代码,可能很多新手一开始学习的时候都比较疑惑,python 中__name__ == '__main__
阅读全文
摘要:在写python爬虫过程中,有时候吧结果写入到txt文件,但是会遇到UnicodeEncodeError。 错误原因—— 把文件内容,写入到文件中时,出错了。 而出错的原因其实是,python系统,在使用默认的编码类型,此处的ascii,去将对应的内容,写入到文件中。 但是由于其中一些内容,asci
阅读全文
摘要:通过爬虫,抓取http://www.weather.com.cn的天气信息 功能——输入城市代码,获取当日天气,简单的beautifulsoup和requests实现。(城市代码可百度查询,不全部展示) 代码如下: 效果图:
阅读全文
摘要:接上一章,动态页面抓取——抓取京东评论区内容。 url=‘https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv399&productId=4560435&score=0&sortTy
阅读全文
摘要:AJAX 是一种用于创建快速动态网页的技术。 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。 近期在学习获取js动态加载网页的爬虫,决定通过实例加深理解。 1、首先是url的研究(谷歌浏览器的审查功能) htt
阅读全文
摘要:经过一段时间的python学习,能写出一些爬虫了。但是,遇到js动态加载的网页就犯了难。于是乎谷歌、百度,发现个好介绍http://www.jianshu.com/p/4fe8bb1ea984 主要就是分析网页的加载过程,从网页响应中找到JS脚本返回的JSON数据。(上边的网址介绍很详细,下边就直接
阅读全文