会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
毕力格次
博客园
首页
新随笔
联系
管理
订阅
[置顶]
hadoop配置文件加载顺序
摘要: 用了一段时间的hadoop,现在回来看看源码发现别有一番味道,温故而知新,还真是这样的 在使用hadoop之前我们需要配置一些文件,hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml。那么这些文件在什么时候被hadoop使用? ...
阅读全文
posted @ 2014-12-05 20:49 毕力格次
阅读(6181)
评论(0)
推荐(0)
[置顶]
java抓取动态生成的网页--吐槽
摘要: 最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到...
阅读全文
posted @ 2014-09-22 00:14 毕力格次
阅读(6900)
评论(7)
推荐(0)
2014年12月10日
hadoop中Configuration类剖析
摘要: Configuration是hadoop中五大组件的公用类,所以放在了core下,org.apache.hadoop.conf.Configruration。这个类是作业的配置信息类,任何作用的配置信息必须通过Configuration传递,因为通过Configuration可以实现在多个mappe...
阅读全文
posted @ 2014-12-10 21:54 毕力格次
阅读(8537)
评论(0)
推荐(1)
2014年8月5日
hadoop文件系统体系
摘要: 在用Hadoop框架处理大数据时使用最多就是HDFS--分布式文件系统,但Hadoop的文件系统不仅只有分布式文件系统,例如:hfs,HSFTP,HAR等在Hadoop中都是有集成的,用来处理存储在不同体系中的数据。事实上应该这么说,Hadoop其实是一个综合性的文件系统。 下面来看看文件系统...
阅读全文
posted @ 2014-08-05 00:01 毕力格次
阅读(3301)
评论(0)
推荐(1)
公告