随笔分类 -  Python Spider

摘要:好久不更新博客了。。。 之前的博文都是通过urllib2进行http访问,接下来我要说一个利器啊!requests模块,无法用语言对他进行赞扬了,需要的,有兴趣的,可以去了解下,移步官方中文文档: Requests: 让 HTTP 服务人类 简直是不要太刁。。。 这篇博文呢,主要是将之前博文中用ur 阅读全文
posted @ 2016-08-01 17:57 叁金 阅读(1056) 评论(0) 推荐(0) 编辑
摘要:初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 还是先推荐几个学习的教程:Scrapy 0.25文档 Scrapy快速入门教程 这些教程里面有关于Scrapy的安装,创建项目,爬取实例等等,如果 阅读全文
posted @ 2016-01-25 18:07 叁金 阅读(3004) 评论(0) 推荐(0) 编辑
摘要:通过几天的学习与尝试逐渐对python爬虫有了一些小小的心得,我们渐渐发现他们有很多共性,总是要去获取一系列的链接,读取网页代码,获取所需内容然后重复上面的工作,当自己运用的越来越熟练之后我们就会尝试着去总结一下爬虫的共性,试着去写个helper类以避免重复性劳动。 参考:用python爬虫抓站的一 阅读全文
posted @ 2016-01-20 16:58 叁金 阅读(4316) 评论(3) 推荐(4) 编辑
摘要:我又来送福利啦!!!不同于上篇文章,这次我们的爬虫采用了多线程,一直以来被所谓的分布式 多线程 爬虫 给唬的怕怕的。今天就来一发多线程爬虫吧,还能看妹子图,想想就觉得很激动!!! 依然是流程解释: 1.分析要爬取的网址,发现页面分两级,第一级是多个图片集的入口,第二集是图片的入口。我们新建两... 阅读全文
posted @ 2016-01-20 10:52 叁金 阅读(12066) 评论(5) 推荐(3) 编辑
摘要:作为一个新世纪有思想有文化有道德时刻准备着的屌丝男青年,在现在这样一个社会中,心疼我大慢播抵制大百度的前提下,没事儿上上网逛逛YY看看斗鱼翻翻美女图片那是必不可少的,可是美图虽多翻页费劲!今天我们就搞个爬虫把美图都给扒下来!本次实例有2个:煎蛋上的妹子图,某网站的rosi图。我只是一个学习pyt... 阅读全文
posted @ 2016-01-19 16:10 叁金 阅读(3735) 评论(0) 推荐(0) 编辑
摘要:Bug有时候破坏的你的兴致,阻挠了保持到现在的渴望。可是,自己又非常明白,它是一种激励,是注定要被你踩在脚下的垫脚石! python2.7中最头疼的可能莫过于编码问题了,尤其还是在window环境下,有时候总是出现莫名其妙的问题,有时候明明昨天还好好的,今天却突然。。。遇到这种问题真的是一肚子... 阅读全文
posted @ 2016-01-19 11:41 叁金 阅读(26950) 评论(0) 推荐(1) 编辑
摘要:此文承接上文,让我们写一个简简单单的爬虫,循序而渐进不是吗?此次进行的练习是爬取前5页什么值得买网站中的白菜价包邮信息。包括名称,价格,推荐人,时间。 我们所需要做的工作:1.确定URL并获得页面代码。 2.用正则匹配每件商品我们所需要的内容 3.打印信息 我还是直接上代码吧,具体步骤看注释就... 阅读全文
posted @ 2016-01-18 16:58 叁金 阅读(2731) 评论(2) 推荐(1) 编辑
摘要:要想做爬虫,不可避免的要用到正则表达式,如果是简单的字符串处理,类似于split,substring等等就足够了,可是涉及到比较复杂的匹配,当然是正则的天下,不过正则好像好烦人的样子,那么如何做呢,熟记正则元字符和语法,找个在线匹配测试网站随时测试(其实在正则上我也是个菜逼。。。一直在慢(询)慢... 阅读全文
posted @ 2016-01-18 15:47 叁金 阅读(6358) 评论(0) 推荐(1) 编辑
摘要:BAT站在中国互联网的顶端,引导着中国互联网的发展走向。。。既受到了多数程序员的关注,也在被我们所惦记着。。。 关于SmartQQ的协议来自HexBlog,根据他的博客我自己也一步一步的去分析,去尝试,自己不了解不知道的总是神秘的,如果你有这种好奇心,那么真相就只有一个。接下来我先把协议放出来... 阅读全文
posted @ 2016-01-15 16:29 叁金 阅读(6022) 评论(0) 推荐(1) 编辑
摘要:首先,推荐两个关于python爬虫不错的博客:Python爬虫入门教程专栏 和 Python爬虫学习系列教程。写的都非常不错,我学习到了很多东西!在此,我就我看到的学到的进行总结一下! 爬虫就是一个不断的去抓去网页的程序,根据我们的需要得到我们想要的结果!但我们又要让服务器感觉是我们人在通过浏... 阅读全文
posted @ 2016-01-14 17:59 叁金 阅读(3472) 评论(0) 推荐(1) 编辑
摘要:装饰器: 在函数代码功能运行期间动态增加功能的方式叫做装饰器(Decorator)。它对一个函数或者类进行再加工。 我们先定义两个函数,一个计算两数和,一个计算两数差。 1 >>> def square_sum(a,b): 2 ... return a + b 3 ... 4 >>>... 阅读全文
posted @ 2016-01-12 16:37 叁金 阅读(946) 评论(0) 推荐(1) 编辑
摘要:函数 秉承着一切皆对象的理念,函数作为对象,可以为其赋值新的对象名,也可以作为参数传递给其他函数! 正常的诸如空函数,默认参数等等我们就不提了,在这里着重提一下默认参数里面的坑和lambda函数。 当默认参数为空list时的坑:定义一个函数,传入一个list,添加一个end后返回1 >>>... 阅读全文
posted @ 2016-01-12 14:14 叁金 阅读(1083) 评论(2) 推荐(0) 编辑
摘要:有心学习一下Python,多门技术多条路啊。经历了找教程,看代码,写demo,这东西入门容易精通难啊!又因为请了两周婚假彻底忘光光。想了想自己还是边复习边写点什么东西吧。很多技术,新东西都是看了n多,看了n多但是却不会写,不会用。一是没有实践,二是没有养成那种思维方式!这篇就当是一篇流水账好了!... 阅读全文
posted @ 2016-01-11 17:13 叁金 阅读(1820) 评论(0) 推荐(0) 编辑
摘要:关于EmguCV我就不多说了,是对应于OpenCV的一套net库。公司是视觉方面的业务,我又不会c++(好想会啊,正在学习中)。由于各种需求,自己觉得对c++不是特别感冒,所以选用了net下的opencv的封装EmguCV。python也有对应的opencv的库。无奈我python还处于入门阶段。不... 阅读全文
posted @ 2015-08-13 15:42 叁金 阅读(14372) 评论(0) 推荐(2) 编辑