Hadoop v3.1 大数据技术快速入门

Hadoop 是由 Java 语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是 HDFS 与 MapReduce。

HDFS 为海量的数据提供了存储，而 MapReduce 为海量的数据提供了计算。

可以把 HDFS 理解为一个分布式的，有冗余备份的，可以动态扩展的用来存储大规模数据的大硬盘。

把 MapReduce 理解成为一个计算引擎，按照 MapReduce 的规则编写 Map 计算 Reduce 计算的程序，可以完成计算任务。

YARN：Hadoop 2 开始使用的资源管理框架。

HBase：Google分布式数据库Bigtable的开源实现，是一个高可靠、高性能、面向列、可伸缩的分布式数据库，主要用来存储非结构化和半结构化的松散数据。为了提高数据可靠性和健壮性，发挥HBase处理大数据量等功能，一般使用HDFS作为HBase的底层数据存储方式。

MapReduce：分布式计算框架。

Hive：是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

技术专栏主要包含如下内容：

Hadoop大数据技术生态系统和基础知识
CentOS 7 单机安装最新版Hadoop v3.1.2以及配置和简单测试
Hadoop v3.1.2 单机伪分布式安装、配置和测试
Hadoop分布式文件系统HDFS核心概念、体系结构和数据读写过程
Hadoop分布式文件系统HDFS 常用API以及应用实例
Java应用中HDFS客户端远程连接Hadoop FileSystem异常情况分析和解决办法
Hadoop列式数据库HBase 数据模型、系统架构和运行机制-快速入门
列式数据库HBase v2.2.3 最新版安装单机模式、启动和简单练习shell命令
列式数据库HBase v2.2.3 最新版伪分布式模式配置、启动运行
大数据快速读写-HBase 常用的Shell命令
大数据快速读写-HBase Java API编程实例-HBaseConn和HBaseUtil工具类
大数据快速读写-HBase Java API编程实例-单元测试和shell命令验证
HBase表的设计原则，包括预分区、列族设计、RowKey设计
【项目实例】基于Elasticsearch对HBase中的数据建立二级索引实现海量数据快速查询-1
【项目实例】基于Elasticsearch对HBase中的数据建立二级索引实现海量数据快速查询-2
【项目实例】基于Elasticsearch对HBase中的数据建立二级索引实现海量数据快速查询-3
【项目实例】基于Elasticsearch对HBase中的数据建立二级索引实现海量数据快速查询-4
Hadoop分布式离线计算框架-MapReduce体系结构和工作流程
Hadoop分布式离线计算框架-MapReduce和YARN
MapReduce编程实践-基于IDEA/Maven实现单词词频统计-Part 1
MapReduce编程实践-基于IDEA/Maven实现单词词频统计-Part 2
Hadoop集群资源管理调度框架-YARN
YARN/MapReduce编程实践-WordCount on YARN代码编写
YARN/MapReduce编程实践-WordCount on YARN编译打包运行
YARN/MapReduce编程实践-实现文件合并和去重
YARN/MapReduce编程实践-实现对输入文件的排序
Hadoop v3.1大数据技术快速入门技术专栏-项目实例源代码
Hadoop数据仓库框架Hive快速入门-简介、系统架构和执行流程
Hadoop数据仓库框架-Hive v3.1.2最新版安装和配置（含MySQL）-Part 1
Hadoop数据仓库框架-Hive v3.1.2最新版安装和配置（含MySQL）-Part 2
Hive编程实践-Hive中常用HiveQL操作
Hive编程实践-分区表（Partition）和分桶表（Bucket）-Part 1
Hive编程实践-分区表（Partition）和分桶表（Bucket）-Part 2
Hive编程实践-Hive ACID和事务表支持的详细操作和快速入门
Hive编程实践-WordCount应用实例
Hive编程实践-内置函数和用户自定义函数（含示例项目源代码）-Part 1
Hive编程实践-内置函数和用户自定义函数（含示例项目源代码）-Part 2
Hive编程实践-通过Java和JDBC驱动访问Hive，附实例项目源代码
Hive高级特性-HiveServer2配置启动和Beeline的基本操作
Impala 实时性交互查询分析工具
Hadoop和关系型数据库的数据传输工具-Sqoop入门
分布式消息队列Kafka-数据交互枢纽
Apache Kudu构建高性能实时数据分析存储系统 -入门简介

从实战出发，通过理论讲解-环境搭建-项目案例实战，让初学者快速掌握hadoop大数据技术。

posted @ 2022-06-21 14:08 Rickie 阅读(124) 评论(0) 收藏举报

刷新页面返回顶部

领域驱动设计 DDD

领域驱动设计（DDD）是一种基于模型驱动的软件设计方式。它以领域为核心，分析领域中的问题，通过建立一个领域模型来有效地解决领域中的核心、复杂问题。

Hadoop v3.1 大数据技术快速入门

公告