摘要: email:chenguibin2004@126.com storm: 是一个分布式的实时流式计算框架,具有低延迟、高可用、分布式、可扩展、数据不丢失的特点, storm包含四个核心组件: Nimbus:负责资源分配和任务调度。 Supervisor:负责接受nimbus分配的任务,启动和停止属于自 阅读全文
posted @ 2016-05-26 16:10 黑|桃K 阅读(2994) 评论(1) 推荐(1) 编辑
摘要: 阅读全文
posted @ 2017-06-12 06:57 黑|桃K 阅读(825) 评论(0) 推荐(0) 编辑
摘要: 5.4、Kafka常用操作命令 查看当前服务器中的所有topic bin/kafka-topics.sh --list --zookeeper zk01:2181 创建topic bin/kafka-topics.sh --create --zookeeper zk01:2181 --replica 阅读全文
posted @ 2016-05-26 16:48 黑|桃K 阅读(395) 评论(0) 推荐(0) 编辑
摘要: 集群部署的基本流程 下载安装包、解压安装包、修改配置文件、分发安装包、启动集群 5.2集群部署的基础环境准备 安装前的准备工作(zk集群已经部署完毕) 关闭防火墙 chkconfig iptables off && setenforce 0 创建用户 groupadd realtime &&user 阅读全文
posted @ 2016-05-26 16:46 黑|桃K 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk 阅读全文
posted @ 2016-05-26 16:43 黑|桃K 阅读(187) 评论(0) 推荐(0) 编辑
摘要: mapPartitionsWithIndex val func = (index: Int, iter: Iterator[(Int)]) => { iter.toList.map(x => "[partID:" + index + ", val: " + x + "]").iterator } v 阅读全文
posted @ 2016-05-26 16:30 黑|桃K 阅读(1194) 评论(0) 推荐(0) 编辑
摘要: #常用Transformation(即转换,延迟加载) #通过并行化scala集合创建RDD val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8)) #查看该rdd的分区数量 rdd1.partitions.length val rdd1 = sc.par 阅读全文
posted @ 2016-05-26 16:29 黑|桃K 阅读(431) 评论(0) 推荐(0) 编辑
摘要: Master package com.scala.akka.rpc.demo2import akka.actor.{Actor, ActorSystem, Props}import com.typesafe.config.ConfigFactoryimport scala.collection.mu 阅读全文
posted @ 2016-05-26 16:26 黑|桃K 阅读(371) 评论(0) 推荐(0) 编辑
摘要: 1.使用yum安装和卸载软件,有个前提是yum安装的软件包都是rpm格式的。 安装的命令是,yuminstall ~,yum会查询数据库,有无这一软件包,如果有,则检查其依赖冲突关系,如果没有依赖冲突,那么最好,下载安装;如果有,则会给出提示,询问是否要同时安装依赖,或删除冲突的包,你可以自己作出判 阅读全文
posted @ 2016-05-23 20:15 黑|桃K 阅读(924) 评论(0) 推荐(0) 编辑