随笔分类 -  大数据

上一页 1 2 3
hadoop/spark/hive
MapReduce和Tez对比
摘要:MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"。 Tez是Apache开源的支持DAG作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Pro 阅读全文
posted @ 2016-03-27 11:00 凌度 阅读(35596) 评论(0) 推荐(2)
日志收集
摘要:启动ZK集群,内容如下所示: zkServer.sh start 注意:分别在ZK的节点上启动。 启动Kafka集群 kafka-server-start.sh config/server.properties & 在其他的Kafka节点输入同样的命令,完成启动。 启动Kafka监控工具 1 2 3 阅读全文
posted @ 2016-02-24 17:44 凌度 阅读(135) 评论(0) 推荐(0)
spark安装
摘要:不跟hadoop在一个机器 1、vim /etc/profile export JAVA_HOME=/usr/local/jdk1.8.0_171export JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_ 阅读全文
posted @ 2015-05-22 10:49 凌度 阅读(384) 评论(0) 推荐(0)

上一页 1 2 3