随笔分类 -  爬虫

摘要:通过Fiddler抓包比较,基本可以确定是JavaScript生成加密Cookie导致原来的请求返回521。 发现问题: 打开Fiddler软件,用浏览器打开目标站点(http://www.kuaidaili.com/proxylist/2/) 。可以发现浏览器对这个页面加载了两次,第一次返回521 阅读全文
posted @ 2017-05-21 23:28 zhongchangcai 阅读(19033) 评论(0) 推荐(7)
摘要:第一种:基本的网页抓取 get方法 post方法 第二种:使用代理IP 在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP; 在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页,如下代码片段: 第三种:Cookies处理 cookies是某些网站为了辨别用 阅读全文
posted @ 2017-04-25 22:44 zhongchangcai 阅读(615) 评论(0) 推荐(0)
摘要:众所周知,网络爬虫(或称为网络爬虫、网络蜘蛛、机器人)是搜索引擎最上游的一个模块,是负责搜索引擎内容索引的第一关。 很多人为了提高自己网站的索引量,都是去网上随便找一些爬虫工具来使用。但是很多人不知道,这些抓取网站的小爬虫是有各种各样的不同性格的。 常见的优秀网络爬虫有以下几种类型: 1.批量型网络 阅读全文
posted @ 2017-04-25 22:14 zhongchangcai 阅读(2004) 评论(0) 推荐(0)
摘要:输出: 格式化输出: 看到了 % 这样的操作符,这就是Python中格式化输出。 换行输出: 在输出的时候,如果有 \n 那么,此时 \n 后的内容会在另外一行显示 输入: 在python2.7当中,使用:raw_input(),在python3中不能使用。Python3只有input() 在pyt 阅读全文
posted @ 2017-04-25 22:09 zhongchangcai 阅读(1713) 评论(0) 推荐(0)
摘要:在Python程序中,要想支持中文输出,则要在代码前面添加 标识符:开发人员在程序中自定义的一些符号和名称 标示符是自己定义的,如变量名 、函数名等 标识符的规则: 标示符由字目、下划线和数字组成,且数字不能开头 python中的标识符是区分大小写的 常用的命名规则: 驼峰命名法: 小驼峰式命名法( 阅读全文
posted @ 2017-04-25 21:44 zhongchangcai 阅读(2659) 评论(0) 推荐(0)
摘要:概述 和那些数据科学比赛不同,在真实的数据科学中,我们可能更多的时间不是在做算法的开发,而是对需求的定义和数据的治理。所以,如何更好的结合现实业务,让数据真正产生价值成了一个更有意义的话题。 数据科学项目的完整流程通常是这样的五步骤: 需求定义=》数据获取=》数据治理=》数据分析=》数据可视化 一、 阅读全文
posted @ 2017-04-22 22:37 zhongchangcai 阅读(1438) 评论(0) 推荐(0)