大数据初级 - 随笔分类(第2页) - 别样风景天

大数据学习（16）—— HBase环境搭建和基本操作

摘要：部署规划 HBase全称叫Hadoop Database，它的数据存储在HDFS上。我们的实验环境依然基于上个主题Hive的配置，参考大数据学习（11）—— Hive元数据服务模式搭建。在此基础上，增加HBase的部署规划。我感觉这8G的内存马上要跑不动了。主机 RegionServer Mas 阅读全文

posted @ 2020-12-08 08:26 别样风景天阅读(458) 评论(0) 推荐(0)

大数据学习（15）—— B+树和LSM

摘要：这一节介绍数据库存储引擎常用的两种数据结构。作为关系型数据库的代表，MySql的InnoDB使用B+树来存储索引。作为NoSQL的代表，HBase使用的LSM树，我们来看看两者有什么区别。 B+树 B+树是大学数据结构里的内容。要了解什么是B+树，先从简单的开始。二叉排序树简单的说，二叉排序树首阅读全文

posted @ 2020-12-01 09:54 别样风景天阅读(621) 评论(0) 推荐(0)

大数据学习（14）—— HBase进阶

摘要：HBase读写流程在网上找了一张图，这个画的比较简单，就拿这个图来说吧。写流程 1.当Client发起一个Put请求时，首先访问Zookeeper获取hbase:meta表。 2.从hbase:meta表查询即将写入数据的Region位置。 3.Client向目标RegionServer发出写命阅读全文

posted @ 2020-11-28 10:14 别样风景天阅读(161) 评论(0) 推荐(0)

大数据学习（13）—— HBase入门

摘要：从这一篇起，开始介绍HBase相关知识。还是一样，大数据的学习，获取官网知识很重要。官网看这里Apache HBase HBase简介 Apache HBase™ is the Hadoop database, a distributed, scalable, big data store. Use 阅读全文

posted @ 2020-11-18 12:47 别样风景天阅读(428) 评论(0) 推荐(0)

大数据学习（12）—— Hive Server2服务

摘要：什么是Hive Server2 上一篇我们启动了hive --service metastore服务，可以通过命令行来访问hive服务，但是它不支持多客户端同时访问，参见官网说明：HiveServer cannot handle concurrent requests from more than 阅读全文

posted @ 2020-11-08 07:38 别样风景天阅读(1344) 评论(0) 推荐(0)

大数据学习（11）—— Hive元数据服务模式搭建

摘要：这一篇介绍Hive的安装及操作。版本是Hive3.1.2。调整部署节点在Hadoop篇里，我用了5台虚拟机来搭建集群，但是我的电脑只有8G内存，虚拟机启动之后卡到没法操作，把自己坑惨了。 Hive的运行是基于Hadoop集群的，为了操作的流畅性，我把Hadoop集群全部重新搭建了，一共只有3台虚阅读全文

posted @ 2020-11-02 00:10 别样风景天阅读(1385) 评论(0) 推荐(0)

大数据学习（10）—— Hive进阶

摘要：前面提到了Hive的知识点非常零散，我不知道该怎么把这些知识点分类，跟SQL关系没那么大的就放在这一篇吧。 Hive Serde 参考Hive Serde Serde是啥 Serde是序列化和反序列化的简称。为啥这么说？序列化是Serializer，反序列化是Deserializer，各取前几个字母阅读全文

posted @ 2020-09-09 22:39 别样风景天阅读(261) 评论(0) 推荐(0)

大数据学习（09）—— Hive语法

摘要：Hive官方网站上有详细的语法说明，参考LanguageManual。这里我把最常用的几块列出来。 HIVE DDL Database 建库语句 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_com 阅读全文

posted @ 2020-09-02 15:55 别样风景天阅读(417) 评论(0) 推荐(0)

大数据学习（08）—— Hive简介

摘要：前面的Hadoop学习是非常体系化的，有主线有细节。到了Hive这里，知识点非常零散，感觉没有什么主线能把它串起来。从官方网站上就能看出这点差异。什么是Hive Hive是一个基于Hadoop的企业级数据仓库，它的图标是大象头和蜜蜂身体。大象头表示它跟Hadoop有非常紧密的联系。 Hive通过类阅读全文

posted @ 2020-08-30 07:53 别样风景天阅读(646) 评论(0) 推荐(0)

大数据学习（07）——Hadoop3.3高可用环境搭建

摘要：前面用了五篇文章来介绍Hadoop的相关模块，理论学完还得操作一把才能加深理解。这一篇我会花相当长的时间从环境搭建开始，到怎么在使用Hadoop，逐步介绍Hadoop的使用。本篇分这么几段内容：规划部署节点节点免密和网络配置 zookeeper分布式集群搭建 Hadoop分布式集群搭建 IDE 阅读全文

posted @ 2020-08-01 18:49 别样风景天阅读(1475) 评论(0) 推荐(0)

大数据学习（06）——Ozone介绍

摘要：前面几篇文章把Hadoop常用的模块都学习了，剩下一个新模块Ozone，截止到今天最新版本是0.5.0Beta，还没出正式版。好在官方网站有文档，还是中文版的，但是中文版资料没有翻译完整，我试着把它都翻译一下。参考《Apache Hadoop Ozone》。什么是Ozone Ozone 是 Ha 阅读全文

posted @ 2020-07-29 23:17 别样风景天阅读(1993) 评论(0) 推荐(0)

大数据学习（05）——MapReduce/Yarn架构

摘要：Hadoop1.x中的MapReduce MapReduce作为Hadoop最核心的两个组件之一，在1.0版本中就已经存在了。它包含这么几个角色： Client 多数情况下Client的作用就是向服务端发送请求并返回结果。但是在MapReduce里，Client的作用可不小。 Client根据传入的阅读全文

posted @ 2020-07-26 00:13 别样风景天阅读(291) 评论(0) 推荐(0)

大数据学习（04）——MapReduce原理

摘要：前两篇文章介绍了HDFS的原理和高可用，下面再来介绍Hadoop的另外一个模块MapReduce。它的思想是很多技术的鼻祖，值得一学。 MapReduce是什么 MapReduce是一个分布式计算系统，它可以类比为SQL里的select ...group by... 它被分为两个阶段。第一个阶段叫M 阅读全文

posted @ 2020-07-22 23:08 别样风景天阅读(472) 评论(0) 推荐(0)

大数据学习（03）——HDFS的高可用

摘要：高可用架构图先上一张搜索来的图。如上图，HDFS的高可用其实就是NameNode的高可用。上一篇里，SecondaryNameNode是NameNode单节点部署才会有的角色，它只帮助NameNode完成日志合并的工作，在NameNode出现问题时不能顶上去。在高可用里，不再有Seconda 阅读全文

posted @ 2020-07-20 22:51 别样风景天阅读(589) 评论(0) 推荐(0)

大数据学习（02）——HDFS入门

摘要：Hadoop模块提到大数据，Hadoop是一个绕不开的话题，我们来看看Hadoop本身包含哪些模块。 Common是基础模块，这个是必须用的。剩下常用的就是HDFS和YARN。 MapReduce现在用的比较少了，多数场景下会被Spark取代。 Ozone是一个新组件，对象存储，可以看做是HDFS 阅读全文

posted @ 2020-07-17 08:27 别样风景天阅读(241) 评论(0) 推荐(0)

大数据学习（01）——开篇

摘要：单位最近开始做大数据平台，借此机会梳理一下大数据相关技术，分享出来共同学习。为什么会出现大数据技术随着计算机系统数据的快速增长，单台物理机已经没办法存储和计算这么大规模的数据量，于是大数据技术应运而生，它是分布式技术的一种。一提到大数据技术，必然会涉及到Hadoop。google的两篇论文是它核阅读全文

posted @ 2020-07-14 23:09 别样风景天阅读(154) 评论(0) 推荐(0)

随笔分类 - 大数据初级