随笔分类 - hadoop
摘要:分组求最新视图 目前业界主流的求最新视图的方法有两种: 求最大值自连接 --假设现在有表T:user_id,update_time --分组求最大值自连接 select user_id, max(update_time) as max_time from t group by user_id joi
阅读全文
摘要:1. 简要概述 Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的框架。Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架它负责存储和管理大家都关心的数据,然后接受观察者的注册,一但这些数据的状态发生变化, Zookeeper就将负责通知已经在 Zo
阅读全文
摘要:HDFS背景 随着数据量的增大,在一个操作系统中内存不了了,就需要分配到操作系统的的管理磁盘中,但是不方便管理者维护,迫切需要一种系统来管理多态机器上的文件,这就是分布式文件管理系统。 HDFS的概念 HDFS英文hadoop distributed file system ,是一个分布式文件系统,
阅读全文
摘要:集群测试 上传小文件到集群,随便选择一个小文件上传到hdfs的根目录 验证是否上传成功,验证ok,Replication的3代表三个副本数 image.png image.png 上传一个大文件如我们的hadoop安装包 image.png image.png 查看每个文件在hdfs的副本情况和存储
阅读全文
摘要:前置章节:hadoop集群namenode启动ssh免密登录(hadoop完全分布式五)|11 集群启动 配置workers(3.x之前是slaves), 删除localhost,添加102/103/104 注:workers文件结尾不能有空格,文件中不能有空行 同步workers到其他机器 验证是
阅读全文
摘要:前置章节:hadoop集群配置同步(hadoop完全分布式四)|10 启动namenode之前: 1. 先查看有无节点启动,执行jps查看,有的话停掉 2. 删除每个机器上之前运行的data和logs文件 启动namenode 格式化namenode执行命令和执行成功的部分日志 启动102的name
阅读全文
摘要:前置配置:rsync远程同步|xsync集群分发(hadoop完全分布式准备三)|9 1. 分布式集群分配原则 部署分配原则 部署分配原则 说明Namenode和secondarynamenode占用内存较大,建议两个分开。我们的环境都是本地虚拟机,部署在一起内存不够。Resourcemanager
阅读全文
摘要:前置环境准备:centos7克隆ip|机器名|映射关系|别名配置(hadoop完全分布式准备一)scp命令copy文件和配置(hadoop完全分布式准备二) rsync远程同步工具 优点 rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。rsync和scp区别:用 rs
阅读全文
摘要:机器的克隆参考centos7克隆ip|机器名|映射关系|别名配置(hadoop完全分布式准备一) 那么问题来了,如果我们有30台机器,之间可以互相访问,那我们如何快速安装配置环境如jdk hadoop等?可通过scp命令将配置、下载好的工具等直接copy到我们新的机器上就可以了。 scp(secur
阅读全文
摘要:hadoop完全分布式准备工作 克隆默认基础虚拟机三台102/103/104目标:在win10主机上能连上这三台机器,三台机器之间可以互相ping通,用机器名也可ping通。基础虚拟机:创建了文件opt/modle,/opt/software添加了普通用户shaozhiqi(和root权限同级别)基
阅读全文
摘要:大数据 大数据简要概念 指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。需要新处理模式,才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据作用 主要解决:通过对海量数据的存储和分析计算,找出其中的价值。 数据单位 按顺序给出数据存储单位:b
阅读全文
摘要:伪分布模式hdfs 1.启动hsfs 2. 编辑vi hadoop-env.sh image.png image.png image.png image.png 3.配置nameNode和生产文件第地址 指定HDFS中NameNode的地址 4.指定HDFS的副本数 只有一个节点的话相同数据只存放一
阅读全文
摘要:前提步骤安装Hadoop,安装步骤: https://www.jianshu.com/p/2ce9775aeb6e 单节点案例官方文档地址:http://hadoop.apache.org/docs/r3.1.2/ 配置非常重要 配置非常重要 单节点的案例 可以看到有三项,本地单节点,伪分布式,完全
阅读全文
摘要:安装JDK 下载jdk https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 选择最新版本: 下载hadoop 官网:https://hadoop.apache.org/release
阅读全文

浙公网安备 33010602011771号