摘要: 自动部署?Ambari Ambari 跟 Hadoop 等开源软件一样,也是 Apache Software Foundation 中的一个项目,并且是顶级项目。就 Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态 阅读全文
posted @ 2017-12-07 16:42 叁金 阅读(1462) 评论(0) 推荐(0) 编辑
摘要: 本文旨在快速搭建一套Hadoop及HBase的分布式环境,自己测试玩玩的话ok,如果真的要搭一套集群建议还是参考下ambari吧,目前正在摸索该项目中。下面先来看看怎么快速搭建一套分布式环境。 准备 1. 三台虚拟机:1台作为NameNode和HMaster 两台作为DataNode和HRegion 阅读全文
posted @ 2017-12-07 16:41 叁金 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 总结 国际惯例,先总结下去年情况。去年实在是坎坷的一年。。。 用一句话概况:4月份之前我在做c# wpf开发,4月到10月我在做python后台开发,11月份到现在虽然职位是python工程师但是做的是java开发。 浪的飞起。。。 找工作说好找也好找,说不好找 找个工资给力,距离ok,公司牛逼的还 阅读全文
posted @ 2017-02-08 10:42 叁金 阅读(2081) 评论(18) 推荐(13) 编辑
摘要: 好久不更新博客了。。。 之前的博文都是通过urllib2进行http访问,接下来我要说一个利器啊!requests模块,无法用语言对他进行赞扬了,需要的,有兴趣的,可以去了解下,移步官方中文文档: Requests: 让 HTTP 服务人类 简直是不要太刁。。。 这篇博文呢,主要是将之前博文中用ur 阅读全文
posted @ 2016-08-01 17:57 叁金 阅读(1056) 评论(0) 推荐(0) 编辑
摘要: 初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 还是先推荐几个学习的教程:Scrapy 0.25文档 Scrapy快速入门教程 这些教程里面有关于Scrapy的安装,创建项目,爬取实例等等,如果 阅读全文
posted @ 2016-01-25 18:07 叁金 阅读(3004) 评论(0) 推荐(0) 编辑
摘要: 通过几天的学习与尝试逐渐对python爬虫有了一些小小的心得,我们渐渐发现他们有很多共性,总是要去获取一系列的链接,读取网页代码,获取所需内容然后重复上面的工作,当自己运用的越来越熟练之后我们就会尝试着去总结一下爬虫的共性,试着去写个helper类以避免重复性劳动。 参考:用python爬虫抓站的一 阅读全文
posted @ 2016-01-20 16:58 叁金 阅读(4315) 评论(3) 推荐(4) 编辑
摘要: 我又来送福利啦!!!不同于上篇文章,这次我们的爬虫采用了多线程,一直以来被所谓的分布式 多线程 爬虫 给唬的怕怕的。今天就来一发多线程爬虫吧,还能看妹子图,想想就觉得很激动!!! 依然是流程解释: 1.分析要爬取的网址,发现页面分两级,第一级是多个图片集的入口,第二集是图片的入口。我们新建两... 阅读全文
posted @ 2016-01-20 10:52 叁金 阅读(12054) 评论(5) 推荐(3) 编辑
摘要: 作为一个新世纪有思想有文化有道德时刻准备着的屌丝男青年,在现在这样一个社会中,心疼我大慢播抵制大百度的前提下,没事儿上上网逛逛YY看看斗鱼翻翻美女图片那是必不可少的,可是美图虽多翻页费劲!今天我们就搞个爬虫把美图都给扒下来!本次实例有2个:煎蛋上的妹子图,某网站的rosi图。我只是一个学习pyt... 阅读全文
posted @ 2016-01-19 16:10 叁金 阅读(3732) 评论(0) 推荐(0) 编辑
摘要: Bug有时候破坏的你的兴致,阻挠了保持到现在的渴望。可是,自己又非常明白,它是一种激励,是注定要被你踩在脚下的垫脚石! python2.7中最头疼的可能莫过于编码问题了,尤其还是在window环境下,有时候总是出现莫名其妙的问题,有时候明明昨天还好好的,今天却突然。。。遇到这种问题真的是一肚子... 阅读全文
posted @ 2016-01-19 11:41 叁金 阅读(26950) 评论(0) 推荐(1) 编辑
摘要: 此文承接上文,让我们写一个简简单单的爬虫,循序而渐进不是吗?此次进行的练习是爬取前5页什么值得买网站中的白菜价包邮信息。包括名称,价格,推荐人,时间。 我们所需要做的工作:1.确定URL并获得页面代码。 2.用正则匹配每件商品我们所需要的内容 3.打印信息 我还是直接上代码吧,具体步骤看注释就... 阅读全文
posted @ 2016-01-18 16:58 叁金 阅读(2731) 评论(2) 推荐(1) 编辑