问候你爸 - 博客园

2016年4月16日

摘要：我64位机器，当时hadoop启动的时候出现这个问题是因为hadoop本身自带的本地库是32位的，我现在hadoop2.2.0已经替换了本地库为64位的了，并且编译spark的时候采用了相对应的版本：SPARK_HADOOP_VERSION=2.2.0 SPARK_YARN=true ./sbt/s 阅读全文

posted @ 2016-04-16 21:55 问候你爸阅读(232) 评论(0) 推荐(0) 编辑

搭建Hadoop2.6.0+Spark1.1.0集群环境

摘要： http://www.linuxidc.com/Linux/2015-08/120947.htm 阅读全文

posted @ 2016-04-16 18:34 问候你爸阅读(103) 评论(0) 推荐(0) 编辑

2016年4月14日

native替换本地库

摘要： Flume 数据收集_注意事项1、 hadoop 集群与 flume 集群单独部署，hdfs 文件系统数据存放目录为：hdfs://cluster1 /flume/%Y%m%d，flume 数据收集的时候能否识别多 NameNode 对外提供的访问路径 cluster1？1) 无法找到 hdfs，比阅读全文

posted @ 2016-04-14 10:50 问候你爸阅读(452) 评论(0) 推荐(1) 编辑

2016年4月6日

namenode启动命令

摘要： ./hadoop-daemon.sh start namenode 阅读全文

posted @ 2016-04-06 07:53 问候你爸阅读(1054) 评论(0) 推荐(0) 编辑

2016年4月5日

hive是什么

摘要： 1.hive是一种可以存储、查询和分析存储在Hadoop中的大规模数据 2.hive定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL用户查询数据 3.允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂分析和工作阅读全文

posted @ 2016-04-05 15:16 问候你爸阅读(165) 评论(0) 推荐(0) 编辑

2016年3月30日

ERROR 1044 (42000): Access denied for user 'xuhive'@'%' to database 'hive'

摘要： 1.我首先创建了一个hive用户然后执行create database hive报错如下 ERROR 1044 (42000): Access denied for user 'xuhive'@'%' to database 'hive' 2.上网查到权限不够退出当前用户到root用户下赋予hive 阅读全文

posted @ 2016-03-30 16:34 问候你爸阅读(1284) 评论(0) 推荐(0) 编辑

2016年3月22日

hadoop文件序列化

摘要：为什么序列化？一般来说，活的对象只生存在内存里，关机断电就没了，而且活的对象只能在本地的进程使用，不能被发送到网上的另外一台计算机。然而序列化可以存储活的对象，可以将活的对象发送到远程计算机。什么是序列化？序列化就是指将结构化对象转化为字节流(字符数组)。反序列化就是将字节流转向结构化对象的阅读全文

posted @ 2016-03-22 09:05 问候你爸阅读(832) 评论(0) 推荐(0) 编辑

2016年3月21日

熟练掌握HDFS的Shell访问和JavaAPI访问

摘要： HDFS设计的主要目的是对海量数据进行处理，也就是说在其上能够储存很大量文件(可以储存TB级的文件)。HDFS将这些文件分割之后，储存在不同的DataNode上，HDFS提供了两种数据访问接口:Shell接口和javaAPI接口,对HDFS里面的文件进行操作。 Shell接口 HDFS处理文件的命令阅读全文

posted @ 2016-03-21 23:01 问候你爸阅读(991) 评论(0) 推荐(0) 编辑

2016年3月20日

MapReduce的基本流程

摘要： MapReduce计算模型由两个阶段组成：Map和Reduce，用户只需要实现map()和reduce()两个函数，即可实现分布式计算，非常简单。map()和reduce()这两个函数的形参是key、value对，表示函数的输入信息。 1. map任务处理 1 读取输入文件内容，解析成key、val 阅读全文

posted @ 2016-03-20 21:06 问候你爸阅读(311) 评论(0) 推荐(0) 编辑

MapReduce

摘要： MapReduce是一种编程模型，用于大规模数据集的并行计算，其主要思想就是Map(映射)和Reduce(化简)。MapReduce的创意和灵感来源于函数式编程，在函数式编程中，map对列表的每个元素执行操作或函数。例如：列表[1,2,3,4]上执行 multiple-by-two 函数会产生另一个阅读全文

posted @ 2016-03-20 20:42 问候你爸阅读(143) 评论(0) 推荐(0) 编辑