随笔分类 -  大数据

自己关于大数据(hadoop,Spark)的一些学习记录
摘要:想要搭建自己的Hadoop和spark集群,尤其是在生产环境中,下载官网提供的安装包远远不够的,必须要自己源码编译spark才行。 环境准备: 1,Maven环境搭建,版本Apache Maven 3.3.9,jar包管理工具; 2,JDK环境搭建,版本1.7.0_51,hadoop由Java编写; 阅读全文
posted @ 2017-08-13 11:23 若鸟 阅读(359) 评论(0) 推荐(0)
摘要:Spark:快速的通用的分布式计算框架 概述和特点: 1) Speed,(开发和执行)速度快。基于内存的计算;DAG(有向无环图)的计算引擎;基于线程模型; 2)Easy of use,易用 。 多语言(Java,python,scala,R); 多种计算API可调用;可在交互式模式下运行; 3)G 阅读全文
posted @ 2017-08-08 10:31 若鸟 阅读(533) 评论(0) 推荐(0)
摘要:Hive产生背景 1)MapReduce的编程不便,需通过Java语言等编写程序 2) HDFS上的文缺失Schema(在数据库中的表名列名等),方便开发者通过SQL的方式处理结构化的数据,而不需要Java等编写程序 Hive是什么 1)facebook开源,最初为解决海量的结构化日志数据统计问题 阅读全文
posted @ 2017-08-06 12:44 若鸟 阅读(1092) 评论(0) 推荐(0)
摘要:配置好HDFS之后,接下来配置单节点的yarn环境 1,修改配置文件 文件 : /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/yarn-site-xml 插入 <property> <name>yarn.nodemanager.aux-services</na 阅读全文
posted @ 2017-07-29 17:11 若鸟 阅读(318) 评论(0) 推荐(0)
摘要:配置好HDFS,也学习了点HDFS的简单操作,跟Linux命令相似 1) 配置Hadoop的环境变量,类似Java的配置 在 ~/.bash_profile 中加入 export HADOOP_HOME=/root/app/hadoop-2.6.0-cdh5.7.0 export PATH=$HAD 阅读全文
posted @ 2017-07-20 17:47 若鸟 阅读(1148) 评论(0) 推荐(0)
摘要:主要解决验证启动HDFS时: 1) jps:bash: jps: command not found... 原因:主要是java/bin 环境变量没配置好。 解决办法: 在 ~/.bash_profile 中 export JAVA_HOME=/root/app/jdk1.7.0_51 export 阅读全文
posted @ 2017-07-20 15:36 若鸟 阅读(752) 评论(0) 推荐(0)
摘要:下载的压缩文件放在~/software/ 解压安装在~/app/ 一:分布式文件系统搭建HDFS 1,下载Hadoop HDFS环境搭建 使用版本:hadoop-2.6.0-cdh5.7.0 下载:wget http://archive.cloudera.com/cdh5/cdh/5/hadoop- 阅读全文
posted @ 2017-07-18 07:39 若鸟 阅读(882) 评论(0) 推荐(0)