Hadoop(五)C#操作Hive
摘要:Hive Hive将HiveQL(类sql语言)转为MapReduce,完成数据的查询与分析,减少了编写MapReduce的复杂度。它有以下优点: 学习成本低:熟悉sql就能使用 良好的数据分析:底层基于MapReduce实现 同样存在一些缺点: HiveDL表达能力有限 效率不高 Hive调优比较
阅读全文
posted @
2022-05-04 09:45
chester·chen
阅读(1330)
推荐(1)
Hadoop(四)C#操作Hbase
摘要:Hbase Hbase是一种NoSql模式的数据库,采用了列式存储。而采用了列存储天然具备以下优势: 可只查涉及的列,且列可作为索引,相对高效 针对某一列的聚合及其方便 同一列的数据类型一致,方便压缩 同时由于列式存储将不同列分开存储,也造成了读取多列效率不高的问题 LSM Tree 说到HBase
阅读全文
posted @
2022-05-02 19:42
chester·chen
阅读(1094)
推荐(1)
Hadoop(三)通过C#/python实现Hadoop MapReduce
摘要:MapReduce Hadoop中将数据切分成块存在HDFS不同的DataNode中,如果想汇总,按照常规想法就是,移动数据到统计程序:先把数据读取到一个程序中,再进行汇总。 但是HDFS存的数据量非常大时,对汇总程序所在的服务器将产生巨大压力,并且网络IO也十分消耗资源。 为了解决这种问题,Map
阅读全文
posted @
2022-05-01 17:03
chester·chen
阅读(522)
推荐(0)
Hadoop(二)Hdfs基本操作
摘要:HDFS HDFS由大量服务器组成存储集群,将数据进行分片与副本,实现高容错。 而分片最小的单位就是块。默认块的大小是64M。 HDFS Cli操作 官网https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/F
阅读全文
posted @
2022-04-30 10:26
chester·chen
阅读(867)
推荐(0)
Hadoop(一)Hadoop核心架构与安装
摘要:Hadoop是什么 大白话,Hadoop是个存储数据,计算数据的分布式框架。核心组件是HDFS、MapReduce、Yarn。 HDFS:分布式存储 MapReduce:分布式计算 Yarn:调度MapReduce 现在为止我们知道了HDFS、MapReduce、Yarn是干啥的,下面通过一张图再来
阅读全文
posted @
2022-04-29 20:08
chester·chen
阅读(779)
推荐(1)