随笔分类 -  大数据

摘要:Sqoop常用参数: sqoop help: codegen 生成代码 create-hive-table 导入一个表的结构到hive,就是根据mysql中的表定义在hive中建一个同结构的表 eval 测试一个sql语句并展示查询结果 export 将一个hdfs目录中的数据导出到一个mysql的 阅读全文
posted @ 2021-06-19 09:56 nohert 阅读(103) 评论(0) 推荐(0)
摘要:奇数台机器的原因是由于zookeeper的选举规则:leader选举导致, 要求 可用节点数量 >总节点数量/2 (注意非≥) 处于这种规则有两种考虑: 一、 防止由脑裂造成的集群不可用 首先,什么是脑裂?集群的脑裂通常是发生在节点之间通信不可达的情况下,集群会分裂成不同的小集群,小集群各自选出自己 阅读全文
posted @ 2021-04-09 09:46 nohert 阅读(606) 评论(0) 推荐(0)
摘要:(1)编辑mapred-site.xml配置文件。 配置文件位于Hadoop安装位置的etc/hadoop/目录下。代码如下: <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> < 阅读全文
posted @ 2020-11-15 13:02 nohert 阅读(324) 评论(0) 推荐(0)
摘要:yarn是什么: 旧版本MapReduce中的JobTracker/TaskTracker在可扩展性、内存消耗、可靠性和线程模型方面存在很多问题,需要开发者做很多调整来修复。 Hadoop的开发者对这些问题进行了Bug修复,可是由此带来的成本却越来越高,为了从根本上解决旧MapReduce存在的问题 阅读全文
posted @ 2020-11-14 21:00 nohert 阅读(136) 评论(0) 推荐(0)
摘要:zk的ACL策略 ZooKeeper的权限控制系统类似于UNIX文件系统,它采用的是ACL(AccessControl Lists)策略。 ZooKeeper定义了如下5种权限。 ·CREATE:创建子节点的权限。 ·READ:获取节点数据和子节点的权限。 ·WRITE:更新节点数据的权限。 ·DE 阅读全文
posted @ 2020-11-05 01:00 nohert 阅读(177) 评论(0) 推荐(0)
摘要:搭建HDFS高可用 在搭建hdfs高可用过程中,以node1、node2和node3来搭建高可用环境,每个节点所分配的作用如表4.3所示。 由表4.3中可以看出,NameNode(NN)分别配置在node1和node2上,ZKFC配置在node1和node3上,JournalNode(JN)配置在n 阅读全文
posted @ 2020-11-04 20:08 nohert 阅读(535) 评论(0) 推荐(0)
摘要:HDFS高可用 什么是HDFS高可用 NameNode存在单点失效的问题。如果NameNode失效了,那么所有的客户端——包括MapReduce作业均无法读、写文件,因为NameNode是唯一存储元数据与文件到数据块映射的地方。在这种情况下,Hadoop系统无法提供服务,为了减少由计算机硬件和软件易 阅读全文
posted @ 2020-09-29 00:09 nohert 阅读(532) 评论(0) 推荐(0)
摘要:hdfs ui不能上传文件 在hdfs-site.xml 中添加 <property> <name>dfs.permissions</name> <value>false</value> </property> 将配置文件分别拷贝到所有节点机器上,启动hdfs ,使用ui界面即可解决 搭建ha集群时 阅读全文
posted @ 2020-09-26 10:39 nohert 阅读(155) 评论(0) 推荐(0)
摘要:hadoop3的jdk和基础环境搭建参考 url: https://www.cnblogs.com/gzgBlog/p/13702720.html 处节点设置为: IP 主机名 节点 192.168.10.11 mater NameNode(NN)、DataNode(DN) 192.168.10.1 阅读全文
posted @ 2020-09-26 02:25 nohert 阅读(761) 评论(0) 推荐(0)
摘要:Hadoop 3.x的发展Hadoop版本包括Hadoop 1.x、Hadoop 2.x和Hadoop 3.x。本节将以Hadoop 3.1.0为例,完成HDFS高可用的搭建。 Hadoop 3新特性 Hadoop 3.1.0 GA版本于2017年12月份正式发布。Hadoop 3相较于Hadoop 阅读全文
posted @ 2020-09-25 23:33 nohert 阅读(1365) 评论(0) 推荐(0)
摘要:基于JavaAPI对hdfs的操作 通过Java API来访问HDFS,首先介绍HDFS中的文件操作主要涉及的几个类。 ·Configuration类:该类的对象封装了客户端或者服务器的配置。 ·FileSystem类:该类的对象是一个文件系统对象,可以用该对象的一些方法对文件进行操作。FileSy 阅读全文
posted @ 2020-09-22 22:45 nohert 阅读(275) 评论(0) 推荐(0)
摘要:查看帮助 hdfs dfs -help 对文件的操作 HDFS的命令都在Hadoop的bin目录下,如果已经设置好Hadoop的环境变量,可以直接输入HDFS命令行,常见的相关命令如下。 1.列出HDFS下的文件 注意:区分大小写 2.上传文件 注意:上传文件的时间 -p时保留原时间 3.文件被复制 阅读全文
posted @ 2020-09-22 02:00 nohert 阅读(246) 评论(0) 推荐(0)
摘要:参考官网: http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是s 阅读全文
posted @ 2020-09-22 01:16 nohert 阅读(299) 评论(0) 推荐(0)
摘要:·第3个副本:放置在与第2个副本相同机架的节点上。分布式文件管理系统有很多,如DFS和HDFS,而HDFS适用于一次写入、多次查询的情况. DFS介绍 由于一台机器的存储容量有限,一旦数据量达到足够的级别,就需要将数据存放在多台机器上,这就是分布式文件系统,又称之为DFS(Distributed F 阅读全文
posted @ 2020-09-21 23:54 nohert 阅读(4225) 评论(0) 推荐(0)
摘要:搭建完全分布式时,先搭建好伪分布式,在其基础上做修改 参考: url: https://www.cnblogs.com/gzgBlog/p/13703051.html 完全分布式安装 伪分布式是基于单个节点,而完全分布式是基于两个或两个以上节点完成Hadoop集群搭建。 下面基于两个节点完成,一个节 阅读全文
posted @ 2020-09-21 02:04 nohert 阅读(277) 评论(0) 推荐(0)
摘要:搭建hadoop伪分布式环境时,要先搭建hadoop环境,参考 url: https://www.cnblogs.com/gzgBlog/p/13702720.html 1.进入hadoop配置文件目录 cd /app/hadoop-2.2.0/etc/hadoop 2.修改core-site.xm 阅读全文
posted @ 2020-09-20 23:44 nohert 阅读(168) 评论(0) 推荐(0)
摘要:1.使用vmware 创建了两个虚拟机 2.分别更改ip可参考url: https://www.cnblogs.com/gzgBlog/p/13693754.html 此处主节点IP : 192.168.10.11 从节点IP: 192.168.10.12 3.分别修改主机名:vi /etc/hos 阅读全文
posted @ 2020-09-20 22:27 nohert 阅读(181) 评论(0) 推荐(0)
摘要:Hadoop简介 Apache Hadoop本身是一个框架,它可以用简单的编程模型在计算机集群中对大型数据集进行分布式处理。它可以被设计成单个机器或成千上万台机器的集群,实现提供计算和存储服务。 Hadoop简介与意义 Apache开源软件基金会开发了运行在大规模普通服务器上,用于大数据存储、计算、 阅读全文
posted @ 2020-09-20 18:46 nohert 阅读(112) 评论(0) 推荐(0)
摘要:大数据技术框架 大数据技术框架主要包含6个部分,分别是数据收集、数据存储、资源管理、计算框架、数据分析和数据展示,每部分包括的具体技术如图1.1所示。 大数据的特点 大数据的特点可以用“4v”来表示,分别为volume、variety、velocity和value,下面具体介绍。 ·海量性(volu 阅读全文
posted @ 2020-09-20 18:42 nohert 阅读(801) 评论(0) 推荐(0)