随笔分类 -  Linux大数据

Hadoop
摘要:15.1 修改hosts文件(并同步到所有节点)[root@nn01 local]# vim /etc/hosts192.168.0.10 nn01 192.168.0.11 node1192.168.0.12 node2192.168.0.21 node3192.168.0.22 nn02192. 阅读全文
posted @ 2021-09-10 18:27 落樰兂痕 阅读(79) 评论(0) 推荐(0)
摘要:14.1为什么NameNode需要高可用–NameNode是HDFS 的核心配置,HDFS 又是Hadoop的核心组件,NameNode在Hadoop集群中至关重要,NameNode机器宕机,将导致集群不可用,如果NameNode数据丢失将导致整个集群的数据丢失,而NameNode的数据的更新又比较 阅读全文
posted @ 2021-09-10 14:50 落樰兂痕 阅读(205) 评论(0) 推荐(0)
摘要:4.1准备–kafka集群的安装配置是依赖zookeeper的,搭建kafka集群之前,首先请创建好一个可用zookeeper集群–安装openjdk运行环境–分发kafka拷贝到所有集群主机–修改配置文件–启动不验证4.2server.properties–broker.id–每台服务器的brok 阅读全文
posted @ 2021-09-09 17:42 落樰兂痕 阅读(287) 评论(0) 推荐(0)
摘要:3.1 kafka是什么?–Kafka是由LinkedIn开发的一个分布式的消息系统–kafka是使用Scala编写–kafka是一种消息中间件3.2 为什么要使用kafka–解耦、冗余、提高扩展性、缓冲–保证顺序,灵活,削峰填谷–异步通信3.3 kafka角色不集群结构–producer:生产者, 阅读全文
posted @ 2021-09-09 16:59 落樰兂痕 阅读(247) 评论(0) 推荐(0)
摘要:2.1 ZK 集群的安装配置–配置文件改名zoo.cfgmvzoo_sample.cfg zoo.cfg–zoo.cfg 最后添加–server.1=node1:2888:3888–server.2=node2:2888:3888–server.3=node3:2888:3888–server.4= 阅读全文
posted @ 2021-09-09 16:42 落樰兂痕 阅读(54) 评论(0) 推荐(0)
摘要:1.1 zookeeper 是什么?–ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务1.2 ZooKeeper能干什么哪?–ZooKeeper是用来保证数据在集群间的事务性一致1.3 •zookeeper 应用场景–集群分布式锁–集群统一命名服务–分布式协调服务1.4 zooke 阅读全文
posted @ 2021-09-09 15:00 落樰兂痕 阅读(67) 评论(0) 推荐(0)
摘要:13.1 启动一个新的系统,禁用selinux、禁用firewalld[root@ngsgw ~]# getenforce Disabled[root@ngsgw ~]# systemctl stop firewalld[root@ngsgw ~]# systemctl disable firewa 阅读全文
posted @ 2021-09-08 17:06 落樰兂痕 阅读(161) 评论(0) 推荐(0)
摘要:12.1 配置/etc/hosts,添加所有namenode和datanode的主机名不ip对应关系[root@nfsgw ~]# vim /etc/hosts192.168.0.10 nn01192.168.0.11 node1192.168.0.12 node2192.168.0.21 node 阅读全文
posted @ 2021-09-08 15:39 落樰兂痕 阅读(196) 评论(0) 推荐(0)
摘要:11.1 NFS网关用途–用户可以通过操作系统兼容的本地NFSv3客户端来阅览HDFS文件系统–用户可以从HDFS文件系统下载文档到本地文件系统–用户可以通过挂载点直接流化数据。支持文件附加,但是不支持随机写–NFS 网关支持NFSv3和允许HDFS 作为客户端文件系统的一部分被挂载11.2特性不注 阅读全文
posted @ 2021-09-07 17:35 落樰兂痕 阅读(168) 评论(0) 推荐(0)
摘要:Yarn的相关操作–由于在2.xhadoop引入了yarn框架,对于计算节点的操作已经变得非常简单–增加节点[root@node4 hadoop]# ./sbin/yarn-daemon.sh start nodemanager[root@nn01 hadoop]# ./bin/yarn node 阅读全文
posted @ 2021-09-07 16:59 落樰兂痕 阅读(186) 评论(0) 推荐(0)
摘要:HDFS删除节点9.1 删除节点遵循原则①无数据删除;②查看状态(Normal(正常状态)、Decommissioned in Program(数据正在迁移)、Decommissioned(数据迁移完成))9.2 导入数据(可省略)[root@nn01 ~]# /usr/local/hadoop/b 阅读全文
posted @ 2021-09-07 16:48 落樰兂痕 阅读(564) 评论(0) 推荐(0)
摘要:8.1 增加节点8.1.1 启动一个新的系统,禁用selinux、禁用firewalld,命名[root@node4 ~]# echo node4 >/etc/hostname [root@node4 ~]# getenforce Disabled[root@node4 ~]# systemctl 阅读全文
posted @ 2021-09-07 16:08 落樰兂痕 阅读(194) 评论(0) 推荐(0)
摘要:7.1 HDFS 基本命令– ./bin/hadoop fs –ls /– 对应shell 命令ls /在集群里查看根下面的文件与目录[root@nn01 hadoop]# ./bin/hadoop fs -ls /Found 1 itemsdrwxr-xr-x - root supergroup 阅读全文
posted @ 2021-09-02 10:40 落樰兂痕 阅读(100) 评论(0) 推荐(0)
摘要:6.1 Hadoop三大核心组件–分布式文件系统–HDFS 已经部署完毕–分布式计算框架–mapreduce–集群资源管理–yarn 系统规划 主机 角色 软件 192.168.0.10 master NameNodeSecondaryNameNodeResourceManager HDFSYARN 阅读全文
posted @ 2021-09-01 17:50 落樰兂痕 阅读(155) 评论(0) 推荐(0)
摘要:5.1 伪分布式介绍–伪分布式的安装和完全分布式类似,但区别是所有角色安装在一台机器上,使用本地磁盘,一般生产环境都会使用完全分布式,伪分布式一般用来学习和测试方面的功能–伪分布式的配置和完全分布式配置类似的词5.2 配置文件格式–Hadoop-env.shJAVA_HOMEHADOOP_CONF_ 阅读全文
posted @ 2021-08-26 16:44 落樰兂痕 阅读(366) 评论(0) 推荐(0)
摘要:数据分析。1,数据存放目录(3个txt文件)[root@node1 ~]# cd /usr/local/hadoop/[root@node1 hadoop]# mkdir oo[root@node1 hadoop]# cp LICENSE.txt NOTICE.txt README.txt ./oo 阅读全文
posted @ 2021-08-26 15:39 落樰兂痕 阅读(62) 评论(0) 推荐(0)
摘要:3.1 •Hadoop的部署模式有三种–单机–伪分布式–完全分布式3.2 Hadoop单机模式安装配置•Hadoop的单机模式安装非常简单–1、获取软件http://hadoop.apache.org–2、安装配置java 环境,安装jps工具安装Openjdk和openjdk-devel–3、设置 阅读全文
posted @ 2021-08-23 16:43 落樰兂痕 阅读(312) 评论(0) 推荐(0)
摘要:•Hadoop是什么–Hadoop是一种分析和处理海量数据的软件平台–Hadoop是一款开源软件,使用JAVA 开发–Hadoop可以提供一个分布式基础架构•Hadoop特点–高可靠性、高扩展性、高效性、高容错性、低成本Hadoop起源•2003 年开始google陆续发表了几篇论文:–GFS,Ma 阅读全文
posted @ 2021-08-23 15:06 落樰兂痕 阅读(125) 评论(0) 推荐(0)
摘要:1.1 大数据是做什么的•大数据–随着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快,随着互联网、物联网建设的加快,信息更是爆炸是增长,收集、检索、统计这些信息越发困难,必须使用新的技术来解决这些问题•大数据的定义–大数据由巨型数据集组成,这些数据集大 阅读全文
posted @ 2021-08-23 14:45 落樰兂痕 阅读(1167) 评论(0) 推荐(0)