对白的算法屋

2018年3月4日

摘要：一、Flume的介绍： Flume由Cloudera公司开发，是一种提供高可用、高可靠、分布式海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于采集数据；同时，flume提供对数据进行简单处理，并写到各种数据接收方的能力，如果能用一句话概括Flume，那么Flume是阅读全文

posted @ 2018-03-04 17:55 对白的算法屋阅读(3474) 评论(0) 推荐(0)

带您详细解读分布式文件系统HDFS

摘要：一、HDFS的由来：本地系统：一个节点作为系统，以前数据是存放在本地文件系统上的，但本地文件系统存在两个问题：1、本地节点存储容量不够大；2、本地节点会坏，数据不够安全。这时，人们开始利用闲置的计算机组成了分布式系统，分布式系统是用计算机网络将多个节点联系起来组成一个逻辑上统一的系统。分布式系统阅读全文

posted @ 2018-03-04 17:37 对白的算法屋阅读(1669) 评论(0) 推荐(0)

详细解读Spark的数据分析引擎：Spark SQL

摘要：一、spark SQL:类似于Hive，是一种数据分析引擎什么是spark SQL？ spark SQL只能处理结构化数据底层依赖RDD，把sql语句转换成一个个RDD，运行在不同的worker上特点： 1、容易集成：SQL语句 2、对不同的数据源提供统一的访问方式：DataFrame 用Da 阅读全文

posted @ 2018-03-04 17:34 对白的算法屋阅读(3368) 评论(0) 推荐(0)

剖析管理所有大数据组件的可视化利器：Hue

摘要：日常的大数据使用都是在服务器命令行中进行的，可视化功能仅仅依靠各个组件自带的web界面来实现，不同组件对应不同的端口号，如：HDFS(50070)，Yarn(8088),Hbase(16010)等等，而大数据的组件又有很多，为了解决某个问题，常常需要结合多个组件来使用，但是每个组件又有独立的web界阅读全文

posted @ 2018-03-04 17:32 对白的算法屋阅读(2655) 评论(0) 推荐(0)

2018年1月22日

Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别

摘要： Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别 Pig 一种操作hadoop的轻量级脚本语言，最初又雅虎公司推出，不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用，不过我认为与其使用pig 阅读全文

posted @ 2018-01-22 23:03 对白的算法屋阅读(19016) 评论(0) 推荐(1)

Hadoop体系结构杂谈

摘要： hadoop体系结构杂谈今天跟一个朋友在讨论hadoop体系架构，从当下流行的Hadoop+HDFS+MapReduce+Hbase+Pig+Hive+Spark+Storm开始一直讲到HDFS的底层实现，MapReduce的模型计算，到一个云盘如何实现，再到Google分布式史上那最伟大的三篇文阅读全文

posted @ 2018-01-22 22:59 对白的算法屋阅读(468) 评论(0) 推荐(0)

Hive JDBC：Permission denied: user=anonymous, access=EXECUTE, inode=”/tmp”

摘要：今天使用JDBC来操作Hive时，首先启动了hive远程服务模式：hiveserver2 &(表示后台运行)，然后到eclipse中运行程序时出现错误：解决办法：报错内容提示hive没有/tmp目录的权限，赋予权限即可： hdfs dfs -chmod 777 /tmp 阅读全文

posted @ 2018-01-22 22:56 对白的算法屋阅读(917) 评论(0) 推荐(0)

Hive JDBC:java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): User: root is not allowed to impersonate anonymous

摘要：今天使用JDBC来操作Hive时，首先启动了hive远程服务模式：hiveserver2 &(表示后台运行)，然后到eclipse中运行程序时出现错误：主要报错内容是：java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException 阅读全文

posted @ 2018-01-22 22:54 对白的算法屋阅读(7059) 评论(3) 推荐(2)

Docker一键部署Hadoop心得（二）

摘要：今天在运行MapReduce程序时，虽然wordcount实例运行成功了，但后面出现了重新使用历史服务器失败的错误阅读全文

posted @ 2018-01-22 22:43 对白的算法屋阅读(417) 评论(0) 推荐(0)

Docker一键部署Hadoop心得（一）

摘要：最近一直在折腾使用docker一键部署全分布式hadoop集群,虽然一键部署的脚本写好了并且可以成功运行出各个节点，但在运行一个wordcount实例时出现了错误，错误如下：问题：请求内存是1536M，而最大内存只有1024M，这个最大内存指的是运行MapReduce程序使用的最大内存，NodeM 阅读全文

posted @ 2018-01-22 22:41 对白的算法屋阅读(798) 评论(0) 推荐(0)

对白的算法屋

清华计算机硕士，BAT算法工程师，欢迎关注微信公众号：对白的算法屋，带你少走弯路进大厂！

公告