随笔分类 -  Hadoop

Spark RDD中的aggregate函数
摘要:转载自:http://blog.csdn.net/qingyang0320/article/details/51603243 针对Spark的RDD,API中有一个aggregate函数,本人理解起来费了很大劲,明白之后,mark一下,供以后参考。 首先,Spark文档中aggregate函数定义如 阅读全文

posted @ 2018-01-08 14:59 波比12 阅读(828) 评论(0) 推荐(0)

Flume 入门--几种不同的Sinks
摘要:主要介绍几种常见Flume的Sink--汇聚点 1.Logger Sink 记录INFO级别的日志,一般用于调试。前面介绍Source时候用到的Sink都是这个类型的Sink 必须配置的属性: 属性说明: !channel – !type – The component type name, nee 阅读全文

posted @ 2017-01-10 21:33 波比12 阅读(9973) 评论(1) 推荐(0)

Flume 入门--几种不同的Sources
摘要:1.flume概念 flume是分布式的,可靠的,高可用的,用于对不同来源的大量的日志数据进行有效收集、聚集和移动,并以集中式的数据存储的系统。 flume目前是apache的一个顶级项目。 flume需要java运行环境,要求java1.6以上,推荐java1.7. 将下载好的flume安装包解压 阅读全文

posted @ 2017-01-09 22:28 波比12 阅读(23246) 评论(1) 推荐(0)

Hive 中parse_url的使用
摘要:1、Hive的parse_url函数 parse_url(url, partToExtract[, key]) - extracts a part from a URL 解析URL字符串,partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUT 阅读全文

posted @ 2016-12-30 14:55 波比12 阅读(19383) 评论(1) 推荐(2)

ubuntu下安装rpm 文件
摘要:正想着如何把rpm package 安装到ubuntu上, 发现了这篇文章,转载一下 Ubuntu的软件包格式是deb,如果要安装rpm的包,则要先用alien把rpm转换成deb。 sudo apt-get install alien #alien默认没有安装,所以首先要安装它 sudo alie 阅读全文

posted @ 2016-12-16 16:11 波比12 阅读(2252) 评论(0) 推荐(0)

【转载】Hadoop机架感知
摘要:转载自http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2843015.html 背景 分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的 阅读全文

posted @ 2016-11-08 21:31 波比12 阅读(245) 评论(0) 推荐(0)

导航