随笔分类 - 大数据
自己关于大数据(hadoop,Spark)的一些学习记录
摘要:想要搭建自己的Hadoop和spark集群,尤其是在生产环境中,下载官网提供的安装包远远不够的,必须要自己源码编译spark才行。 环境准备: 1,Maven环境搭建,版本Apache Maven 3.3.9,jar包管理工具; 2,JDK环境搭建,版本1.7.0_51,hadoop由Java编写;
阅读全文
摘要:Spark:快速的通用的分布式计算框架 概述和特点: 1) Speed,(开发和执行)速度快。基于内存的计算;DAG(有向无环图)的计算引擎;基于线程模型; 2)Easy of use,易用 。 多语言(Java,python,scala,R); 多种计算API可调用;可在交互式模式下运行; 3)G
阅读全文
摘要:Hive产生背景 1)MapReduce的编程不便,需通过Java语言等编写程序 2) HDFS上的文缺失Schema(在数据库中的表名列名等),方便开发者通过SQL的方式处理结构化的数据,而不需要Java等编写程序 Hive是什么 1)facebook开源,最初为解决海量的结构化日志数据统计问题
阅读全文
摘要:配置好HDFS之后,接下来配置单节点的yarn环境 1,修改配置文件 文件 : /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/yarn-site-xml 插入 <property> <name>yarn.nodemanager.aux-services</na
阅读全文
摘要:配置好HDFS,也学习了点HDFS的简单操作,跟Linux命令相似 1) 配置Hadoop的环境变量,类似Java的配置 在 ~/.bash_profile 中加入 export HADOOP_HOME=/root/app/hadoop-2.6.0-cdh5.7.0 export PATH=$HAD
阅读全文
摘要:主要解决验证启动HDFS时: 1) jps:bash: jps: command not found... 原因:主要是java/bin 环境变量没配置好。 解决办法: 在 ~/.bash_profile 中 export JAVA_HOME=/root/app/jdk1.7.0_51 export
阅读全文
摘要:下载的压缩文件放在~/software/ 解压安装在~/app/ 一:分布式文件系统搭建HDFS 1,下载Hadoop HDFS环境搭建 使用版本:hadoop-2.6.0-cdh5.7.0 下载:wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-
阅读全文

浙公网安备 33010602011771号