Hadoop - 随笔分类 - chester·chen

Hadoop（五）C#操作Hive

摘要：Hive Hive将HiveQL（类sql语言）转为MapReduce，完成数据的查询与分析，减少了编写MapReduce的复杂度。它有以下优点：学习成本低：熟悉sql就能使用良好的数据分析：底层基于MapReduce实现同样存在一些缺点： HiveDL表达能力有限效率不高 Hive调优比较阅读全文

posted @ 2022-05-04 09:45 chester·chen 阅读(1330) 评论(1) 推荐(1)

Hadoop（四）C#操作Hbase

摘要：Hbase Hbase是一种NoSql模式的数据库，采用了列式存储。而采用了列存储天然具备以下优势：可只查涉及的列，且列可作为索引，相对高效针对某一列的聚合及其方便同一列的数据类型一致，方便压缩同时由于列式存储将不同列分开存储，也造成了读取多列效率不高的问题 LSM Tree 说到HBase 阅读全文

posted @ 2022-05-02 19:42 chester·chen 阅读(1094) 评论(0) 推荐(1)

Hadoop（三）通过C#/python实现Hadoop MapReduce

摘要：MapReduce Hadoop中将数据切分成块存在HDFS不同的DataNode中，如果想汇总，按照常规想法就是，移动数据到统计程序：先把数据读取到一个程序中，再进行汇总。但是HDFS存的数据量非常大时，对汇总程序所在的服务器将产生巨大压力，并且网络IO也十分消耗资源。为了解决这种问题，Map 阅读全文

posted @ 2022-05-01 17:03 chester·chen 阅读(522) 评论(0) 推荐(0)

Hadoop（二）Hdfs基本操作

摘要：HDFS HDFS由大量服务器组成存储集群，将数据进行分片与副本，实现高容错。而分片最小的单位就是块。默认块的大小是64M。 HDFS Cli操作官网https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/F 阅读全文

posted @ 2022-04-30 10:26 chester·chen 阅读(867) 评论(0) 推荐(0)

Hadoop（一）Hadoop核心架构与安装

摘要：Hadoop是什么大白话，Hadoop是个存储数据，计算数据的分布式框架。核心组件是HDFS、MapReduce、Yarn。 HDFS：分布式存储 MapReduce：分布式计算 Yarn：调度MapReduce 现在为止我们知道了HDFS、MapReduce、Yarn是干啥的，下面通过一张图再来阅读全文

posted @ 2022-04-29 20:08 chester·chen 阅读(779) 评论(0) 推荐(1)

随笔分类 - Hadoop