随笔分类 -  大数据知识相关

大数据相关的概念,解析等。
摘要:YARN(Yet Another Resource Negotiator)背景 Yarn的出现是为了解决以下问题(即MapReduce1.0的缺陷): 单点故障。 JobTracker“大包大揽”导致任务过重。 容易出现内存溢出。 资源划分不合理。 YARN的设计思路 基本思路就是“放权”,即不让 阅读全文
posted @ 2019-11-29 15:58 音译昌 阅读(1278) 评论(0) 推荐(0)
摘要:简介 Hive可以快速实现简单的MapReduce统计,主要是通过自身组件把HiveQL转换成MapReduce任务来实现的。 Hive中SQL查询转换成MapReduce作业的过程 当用户向 Hive 输入一段命令或查询(即 HiveQL 语句)时,Hive 需要与 Hadoop 交互工作来完成该 阅读全文
posted @ 2019-11-27 15:16 音译昌 阅读(559) 评论(0) 推荐(0)
摘要:Hive的系统架构 Hive主要由以下三个模块组成 用户接口模块 驱动模块 元数据存储模块 系统架构 架构解析 用户接口模块 用户接口模块的组成 主要包括:CLI、HWI、JDBC、ODBC、Thrift Server等。 CLI:是Hive自带的一个命令行界面,HWI是Hive的一个简单网页界面; 阅读全文
posted @ 2019-11-27 15:14 音译昌 阅读(515) 评论(0) 推荐(0)
摘要:MapReduce的shuffle过程介绍 Shuffle的语义是洗牌、混洗,即把一组有一定规则的数据尽量转换成一组无规则的数据,随机性越高越好。 MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。 为什么MapReduce计算模型需要Shu 阅读全文
posted @ 2019-10-24 14:40 音译昌 阅读(895) 评论(0) 推荐(0)
摘要:结构介绍 MapReduce是Hadoop提供的一种处理海量数据的并行编程模型和计算框架,用于对大规模的数据进行并行计算。主要由ResourceManager和NodeManager两类节点构成。 ResourceManager主要负责集群资源管理,NodeManager负责节点的资源管理。 当运行 阅读全文
posted @ 2019-10-23 10:48 音译昌 阅读(362) 评论(0) 推荐(0)
摘要:大数据特征(5V) Velocity(快速的数据流转) Veracity(精准可信赖的大数据) Variety(多样的数据类型) Volume(海量的数据规模) Value(数据价值密度相对较低) 大数据架构 HDFS服务功能 NameNode NameNode是主节点,存储文件的元数据,如文件名, 阅读全文
posted @ 2019-10-21 15:36 音译昌 阅读(228) 评论(0) 推荐(0)
摘要:磁盘数据查询 df:查看文件系统的磁盘使用量 df -h -a, --all include dummy file systems -B, --block-size=SIZE scale sizes by SIZE before printing them; e.g., '-BM' prints s 阅读全文
posted @ 2019-10-16 14:19 音译昌 阅读(134) 评论(0) 推荐(0)
摘要:Linux 网络配置 配置时需要将用户切换到root用户,或者给当前用户配置root用户的权限。 参考:Linux命令大全 Linux基本命令 1.进入目录 cd /etc #直接切换到指定的目录,绝对路径 cd . #当前目录,后面跟的路径为相对路径 cd .. #返回上一层,相对路径 #带斜杠的 阅读全文
posted @ 2019-10-15 16:21 音译昌 阅读(144) 评论(0) 推荐(0)
摘要:前言 从毕业到现在,一直是Java 开发的码农,对大数据方面相关的技术也有点兴趣,一直以来是了解的状态并没有认真的把这一套技术学习实践下。 因为是Java码农,所以对于大数据Hadoop生态圈来说还是比较友好的,毕竟大多数都是Java语言开发的。经过我了解到的大数据相关的技术知识,整理下接下来要好好 阅读全文
posted @ 2019-10-11 17:03 音译昌 阅读(191) 评论(0) 推荐(0)
摘要:总览 "官网" 1. 最低要求的Java版本从Java 7增加到Java 8 2. 支持HDFS中的擦除编码 3. YARN时间轴服务v.2 4. Shell脚本重写 6. 支持随机container和分布式计划 7. MapReduce任务级本机优化 8. 支持两个以上的NameNode 9. 多 阅读全文
posted @ 2019-10-11 10:31 音译昌 阅读(671) 评论(0) 推荐(0)