随笔分类 - Hadoop
关于hadoop生态圈的知识笔记
摘要:Spark基础 第一节:什么是Spark?Spark的特点和结构 1、什么是Spark? Spark是一个针对大规模数据处理的快速通用引擎。 类似MapReduce,都进行数据的处理 2、Spark的特点: (1)基于Scala语言、Spark基于内存的计算 (2)快:基于内存 (3)易用:支持Sc
阅读全文
摘要:################# HA 即 High Available 高可用。# 其作用是为了减少主从结构的单点故障,而设置备用节点,既然学习了Hadoop生态圈,那么HA配置也是必须要掌握的。# 因为生产环境中,一定会设置HA,减少故障率。 # 参考了好几处的教程,自己动手实践了下,成功。
阅读全文
摘要:大数据开发的学习,组件还是很多的,都需要掌握并多加练习。 最好的参考文档当然是官方的了。 因为Hadoop生态圈组件很多,所以,在建设之初一定要检查好各版本的兼容性。避免后期麻烦。 我的练习使用Hadoop-2.7.5 以及Hbase-1.4.2 看了Hbase 手册Chapter4 兼容性没有问题
阅读全文
摘要:zookeeper 动物园管理员。前几天看到 金蝉脱壳2 台词中出现了这个词。黄教主演技还不错。 其实Zookeeper的作用是用来做HA高可用。hadoop或spark的HA都需要利用到它。 安装与配置: Shell 的使用: Java API方式:简单监听机制实现 DOCX版本的zookeepe
阅读全文
摘要:众所周知,hadoop生态圈的多数组件都是使用java开发的。 那么使用Java API方式实现起来,显得要比其它语言效率更高,更原生态。 前面有一个Hadoop学习笔记02_MapReduce练习 是在Linux下直接使用的python2.7实现的。这里我试试windows下用 java 来练习实
阅读全文
摘要:IDEA中新建Maven工程,添加POM依赖, 在IDE的提示中, 点击 Import Changes 等待自动下载完成相关的依赖包。 启动hadoop后, 在IDEA中测试mkdir, put, get 创建文件夹,上传,下载 Run之后,没有报错,到hdfs上查看,是否有对应的结果。 最后,老师
阅读全文
摘要:Apache Hive是提供了一种数据映射去读取文本数据,以及提供了类SQL的语句来执行MapReduce。 也就是一种更简化操作的MR。 之前的练习是跟着视频学的hive-1.2.2 而这几天自己练习 hive-2.3.2 才发现很多问题,需要增加一些配置。 以下是笔记: 以下是Hive-2.3.
阅读全文
摘要:搭建好环境之后 ,就来跑个简单的Mapreduce试试看吧。这个比第一课难多了,需要多多练习并熟练掌握。 需要编写py脚本以及shell脚本, 所以需要学习Python和Linux的Shell编程。 虽然现在可以照抄老师的代码,但是代码有些方面还不太懂,更不能够理解透彻。所以,需要继续学习pytho
阅读全文
摘要:以下是一些 常用功能 , 基于 centos 6.5 x64, 也有部分centos7 64 会有提示。 # cp /etc/localtime /etc/localtime.org # rm /etc/localtime # ln -s /usr/share/zoneinfo/Asia/Shang
阅读全文

浙公网安备 33010602011771号