摘要: 一、Flume的介绍: Flume由Cloudera公司开发,是一种提供高可用、高可靠、分布式海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于采集数据;同时,flume提供对数据进行简单处理,并写到各种数据接收方的能力,如果能用一句话概括Flume,那么Flume是 阅读全文
posted @ 2018-03-04 17:55 对白的算法屋 阅读(3458) 评论(0) 推荐(0)
摘要: 一、HDFS的由来: 本地系统:一个节点作为系统,以前数据是存放在本地文件系统上的,但本地文件系统存在两个问题:1、本地节点存储容量不够大;2、本地节点会坏,数据不够安全。这时,人们开始利用闲置的计算机组成了分布式系统,分布式系统是用计算机网络将多个节点联系起来组成一个逻辑上统一的系统。 分布式系统 阅读全文
posted @ 2018-03-04 17:37 对白的算法屋 阅读(1642) 评论(0) 推荐(0)
摘要: 一、spark SQL:类似于Hive,是一种数据分析引擎 什么是spark SQL? spark SQL只能处理结构化数据 底层依赖RDD,把sql语句转换成一个个RDD,运行在不同的worker上 特点: 1、容易集成:SQL语句 2、对不同的数据源提供统一的访问方式:DataFrame 用Da 阅读全文
posted @ 2018-03-04 17:34 对白的算法屋 阅读(3343) 评论(0) 推荐(0)
摘要: 日常的大数据使用都是在服务器命令行中进行的,可视化功能仅仅依靠各个组件自带的web界面来实现,不同组件对应不同的端口号,如:HDFS(50070),Yarn(8088),Hbase(16010)等等,而大数据的组件又有很多,为了解决某个问题,常常需要结合多个组件来使用,但是每个组件又有独立的web界 阅读全文
posted @ 2018-03-04 17:32 对白的算法屋 阅读(2636) 评论(0) 推荐(0)
摘要: Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别 Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用,不过我认为与其使用pig 阅读全文
posted @ 2018-01-22 23:03 对白的算法屋 阅读(18998) 评论(0) 推荐(1)
摘要: hadoop体系结构杂谈 今天跟一个朋友在讨论hadoop体系架构,从当下流行的Hadoop+HDFS+MapReduce+Hbase+Pig+Hive+Spark+Storm开始一直讲到HDFS的底层实现,MapReduce的模型计算,到一个云盘如何实现,再到Google分布式史上那最伟大的三篇文 阅读全文
posted @ 2018-01-22 22:59 对白的算法屋 阅读(449) 评论(0) 推荐(0)
摘要: 今天使用JDBC来操作Hive时,首先启动了hive远程服务模式:hiveserver2 &(表示后台运行),然后到eclipse中运行程序时出现错误: 解决办法:报错内容提示hive没有/tmp目录的权限,赋予权限即可: hdfs dfs -chmod 777 /tmp 阅读全文
posted @ 2018-01-22 22:56 对白的算法屋 阅读(898) 评论(0) 推荐(0)
摘要: 今天使用JDBC来操作Hive时,首先启动了hive远程服务模式:hiveserver2 &(表示后台运行),然后到eclipse中运行程序时出现错误: 主要报错内容是:java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException 阅读全文
posted @ 2018-01-22 22:54 对白的算法屋 阅读(7043) 评论(3) 推荐(2)
摘要: 今天在运行MapReduce程序时,虽然wordcount实例运行成功了,但后面出现了重新使用历史服务器失败的错误 阅读全文
posted @ 2018-01-22 22:43 对白的算法屋 阅读(392) 评论(0) 推荐(0)
摘要: 最近一直在折腾使用docker一键部署全分布式hadoop集群,虽然一键部署的脚本写好了并且可以成功运行出各个节点,但在运行一个wordcount实例时出现了错误,错误如下: 问题:请求内存是1536M,而最大内存只有1024M,这个最大内存指的是运行MapReduce程序使用的最大内存,NodeM 阅读全文
posted @ 2018-01-22 22:41 对白的算法屋 阅读(792) 评论(0) 推荐(0)