2022年8月2日
摘要: 从芒果分装角度-看MapReduce流程 背景 有一芒果产销基地,园区内有芒果种植园(产), 芒果分装库(装),芒果销路(销)。 芒果种植园即HDFS中的文件,这个种植园规模很大,有不同的山头,假设一个山头一个分区。 芒果的品质不同、个头不同、成熟度不同,价格和可以销往的地点不同。 芒果产销基地需要 阅读全文
posted @ 2022-08-02 16:45 茶倌 阅读(64) 评论(0) 推荐(0)
  2022年7月31日
摘要: HDFS HDFS概述 ​ HDFS是Hadoop 分布式文件系统,可以运行在通用硬件上、提供流式数据操作、能够处理超大文件的分布式文件系统。HDFS具有高度容错、高吞吐量、容易扩展、高可靠性等特征。 ​ HDFS是一个主/从体系结构的分布式系统,拥有1个Namenode和多个Datanodes,用 阅读全文
posted @ 2022-07-31 13:24 茶倌 阅读(680) 评论(0) 推荐(0)
  2022年7月29日
摘要: 配置 写的挺好,包含了spark配置,hive on spark 以及 spark on hive Hive on Spark 配置 DBeaver连接Hive Hive启动脚本 DBeaver需要启动hiveserver2等组件。 HQL 50 题 刷题链接 阅读全文
posted @ 2022-07-29 13:11 茶倌 阅读(266) 评论(0) 推荐(0)
  2022年7月26日
摘要: https://blog.csdn.net/weixin_44374374/article/details/123957815 阅读全文
posted @ 2022-07-26 10:52 茶倌 阅读(33) 评论(0) 推荐(0)
  2022年7月25日
摘要: HBase数据结构、存储结构 一直都说HBase是稀疏的,列式数据库,但是一直不太明白,HBase的列式存储是怎么编排的。 稀疏:没有值的列不存储。 列式:对于相同row key的数据,数据按列族分块,每个块内是按照时间戳降序、且列存的。 官方文档:可以把HBase的表想象成一个多维的Map,列族是 阅读全文
posted @ 2022-07-25 14:31 茶倌 阅读(121) 评论(0) 推荐(0)
摘要: 数据库对比、类比 关系型数据库、NoSQL 关系型数据库 表与表之间有关系。表存储一些格式化的数据结构,每个元组字段的组成都一样,这样便于表之间的联结操作。不过也限制了其性能瓶颈。 更支持SQL,支持复杂计算 NoSQL 表与表之间没有直接关系,创建不用遵循三范式,以键值对存储,结构不固定,可以减少 阅读全文
posted @ 2022-07-25 12:20 茶倌 阅读(576) 评论(0) 推荐(0)