2022年6月26日
摘要: 二、Hive概述 2.1 什么是hive?(面试题) ​1. hive是基于hadoop的数据仓库建模工具之一(后面还有TEZ,Spark)。 ​2. hive可以使用类sql方言,对存储在hdfs上的数据进行分析和管理。传入一条交互式sql在海量数据中查询分析结果的工具。 2.2 对于hive的理 阅读全文
posted @ 2022-06-26 17:48 +1000 阅读(12) 评论(0) 推荐(0)
摘要: 一、数据库、数据仓库概述 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。 随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生 阅读全文
posted @ 2022-06-26 16:57 +1000 阅读(67) 评论(0) 推荐(0)
摘要: HDFS的读写流程(重点!) 写数据 写数据就是将客户端上的数据上传到HDFS 2.6.1 宏观过程 每一个block块都需要进行机架感知,得到block块以及副本的存储DN的节点,然后DN节点之间组成pipeline,然后客户端将block块拆分成多个packet,每个packet大小为64K,然 阅读全文
posted @ 2022-06-26 16:30 +1000 阅读(82) 评论(0) 推荐(0)
摘要: hadoop相关进程 HDFS相关(NN,DN,SNN) NameNode(NN) NameNode中存储的信息: 1.文件 --> 元数据 元数据包括:名称,大小,时间,权限等等 2.文件 --> Blocks(每128M生成一个Block块) block0 - 111 block1 - 222 阅读全文
posted @ 2022-06-26 15:45 +1000 阅读(88) 评论(0) 推荐(0)
  2022年6月24日
摘要: 一、Hadoop环境变量的配置 首先进入linux环境配置的文件 vim /etc/profile 这样就进入配置文件的界面 然后按下英文字母i就可以进入文件的编辑模式,后面输入环境变量的配置: HADOOP_HOME= (hadoop文件的根目录) PATH=.:$HADOOP/bin(Hadoo 阅读全文
posted @ 2022-06-24 20:43 +1000 阅读(143) 评论(0) 推荐(0)
摘要: 一、统计一段英文短文中个单词的数量 英文短文如下: Convolutional layers are an important part of distinguishing traditional neural networks and play an important role in extra 阅读全文
posted @ 2022-06-24 16:45 +1000 阅读(89) 评论(0) 推荐(0)
  2022年6月23日
摘要: 一、MapReduce架构特点 MapReduce1.x JobTracker 主节点,单点,负责调度所有的作用和监控整个集群的资源负载。 TaskTracker 从节点,自身节点资源管理和JobTracker进行心跳联系,汇报资源和获取task。 Client 以作业为单位,规划作业计算分布,提交 阅读全文
posted @ 2022-06-23 20:01 +1000 阅读(63) 评论(0) 推荐(0)
  2022年6月22日
摘要: Hadoop集群搭建(完全分布式版本)(三节点) 一、准备工作 三台虚拟机:master、node1、node2 时间同步 ntpdate ntp.aliyun.com 调整时区 cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime jdk1.8 j 阅读全文
posted @ 2022-06-22 15:10 +1000 阅读(41) 评论(0) 推荐(0)
摘要: Hadoop2.7.6学习 ​ Hadoop(java) ​ HDFS ​ MapReduce ​ Hadoop三大开源发行版本:Apache、Cloudera(CDH)、Hortonworks(HDP)。Apache版本最原始(最基础)的版本,对于入门学习最好。Cloudera在大型互联网企业中用 阅读全文
posted @ 2022-06-22 15:00 +1000 阅读(119) 评论(0) 推荐(0)