zhongchangcai

[置顶] 简谈-Python一些常用的爬虫技巧

摘要：第一种：基本的网页抓取 get方法 post方法第二种：使用代理IP 在开发爬虫过程中经常会遇到IP被封掉的情况，这时就需要用到代理IP；在urllib2包中有ProxyHandler类，通过此类可以设置代理访问网页，如下代码片段：第三种：Cookies处理 cookies是某些网站为了辨别用阅读全文

posted @ 2017-04-25 22:44 zhongchangcai 阅读(618) 评论(0) 推荐(0)

2017年5月21日

简谈-Python生成器

摘要： 1. 什么是生成器生成列表的方法：1、a = [11,22,33] 2 、a = [x for x in range(5)] 3、 a = [] ,并通过append 来添加通过列表生成式，我们可以直接创建一个列表。但是，受到内存限制，列表容量肯定是有限的。而且，创建一个包含100万个元素的列表阅读全文

posted @ 2017-05-21 23:44 zhongchangcai 阅读(318) 评论(0) 推荐(0)

简谈-Python爬虫破解JS加密的Cookie

摘要：通过Fiddler抓包比较，基本可以确定是JavaScript生成加密Cookie导致原来的请求返回521。发现问题：打开Fiddler软件，用浏览器打开目标站点(http://www.kuaidaili.com/proxylist/2/) 。可以发现浏览器对这个页面加载了两次，第一次返回521 阅读全文

posted @ 2017-05-21 23:28 zhongchangcai 阅读(19043) 评论(0) 推荐(7)

2017年4月25日

简谈-网络爬虫的几种常见类型

摘要：众所周知，网络爬虫（或称为网络爬虫、网络蜘蛛、机器人）是搜索引擎最上游的一个模块，是负责搜索引擎内容索引的第一关。很多人为了提高自己网站的索引量，都是去网上随便找一些爬虫工具来使用。但是很多人不知道，这些抓取网站的小爬虫是有各种各样的不同性格的。常见的优秀网络爬虫有以下几种类型： 1.批量型网络阅读全文

posted @ 2017-04-25 22:14 zhongchangcai 阅读(2009) 评论(0) 推荐(0)

简谈-Python的输入、输出、运算符、数据类型转换

摘要：输出：格式化输出：看到了 % 这样的操作符，这就是Python中格式化输出。换行输出：在输出的时候，如果有 \n 那么，此时 \n 后的内容会在另外一行显示输入：在python2.7当中，使用：raw_input()，在python3中不能使用。Python3只有input() 在pyt 阅读全文

posted @ 2017-04-25 22:09 zhongchangcai 阅读(1716) 评论(0) 推荐(0)

简谈-Python的注释、变量类型、标识符及关键字

摘要：在Python程序中，要想支持中文输出，则要在代码前面添加标识符：开发人员在程序中自定义的一些符号和名称标示符是自己定义的,如变量名、函数名等标识符的规则：标示符由字目、下划线和数字组成，且数字不能开头 python中的标识符是区分大小写的常用的命名规则：驼峰命名法：小驼峰式命名法（阅读全文

posted @ 2017-04-25 21:44 zhongchangcai 阅读(2662) 评论(0) 推荐(0)

2017年4月22日

简谈-如何使用Python和R组合完成任务

摘要：概述和那些数据科学比赛不同，在真实的数据科学中，我们可能更多的时间不是在做算法的开发，而是对需求的定义和数据的治理。所以，如何更好的结合现实业务，让数据真正产生价值成了一个更有意义的话题。数据科学项目的完整流程通常是这样的五步骤：需求定义=》数据获取=》数据治理=》数据分析=》数据可视化一、阅读全文

posted @ 2017-04-22 22:37 zhongchangcai 阅读(1441) 评论(0) 推荐(0)

简谈-如何将图片下载到本地

摘要：得到图片的网址之后我么你怎么将图片下载到本地呢？在python中我们使用 urllib 库里面的 urllib.urlretrieve() 函数又是新函数，还记得上回在使用urllib2.Request() 函数的时候因为传参数时没指定好参数名，所以运行出现了一个错误，这回要吸取教训，先把函数原型搞阅读全文

posted @ 2017-04-22 20:32 zhongchangcai 阅读(1017) 评论(0) 推荐(0)

简谈-大规模爬虫

摘要：爬虫是一个比较容易上手的技术，也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫，完全就是另一回事，并不是1*n这么简单，还会衍生出许多别的问题。系统的大规模爬虫流程如图所示。先检查是否有API API是网站官方提供的数据接口，如果通过调用API采集数据，则相当于在网站允许的范围内阅读全文

posted @ 2017-04-22 20:23 zhongchangcai 阅读(362) 评论(0) 推荐(0)

公告