大数据学习与分享

2020年11月10日

Hadoop调优 | NameNode主备宕机引发的思考

摘要： Hadoop调优阅读全文

posted @ 2020-11-10 14:32 大数据学习与分享阅读(397) 评论(0) 推荐(0)

2020年11月9日

系统解析Apache Hive

摘要： Apache Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供一种HQL语言进行查询，具有扩展性好、延展性好、高容错等特点，多应用于离线数仓建设阅读全文

posted @ 2020-11-09 09:24 大数据学习与分享阅读(520) 评论(0) 推荐(0)

2020年11月6日

Spark集群和任务执行

摘要： Spark是典型的Master/Slave架构，集群主要包括以下4个组件： Driver：Spark框架中的驱动器，运行用户编写Application 的main()函数。类比于MapReduce的MRAppmaster Master：主节点，控制整个集群，监控worker。在Yarn模式中为全局资源管理器 Worker：从节点，负责控制计算节点，启动Executor。类比Yarn中的节点资源管理器 Executor：运算任务执行器，运行在worker节点上的一个进程。类似于MapReduce中的MapTask和ReduceTask 阅读全文

posted @ 2020-11-06 17:59 大数据学习与分享阅读(251) 评论(0) 推荐(0)

Redis中的一致性哈希问题

摘要：在说redis中的哈希（准确来说是一致性哈希）问题之前，先来看一个问题：为什么在分布式集群中一致性哈希会得到大量应用？在一个分布式系统中，要将数据存储到具体某个节点，或者将来自客户端的请求分配到某个服务器节点做负载均衡，如果采用普通的hash取模算法进行映射，即如key.hashCode()%N，key代表数据的key，N是服务器节点数，使用上能达到预期效果。阅读全文

posted @ 2020-11-06 09:09 大数据学习与分享阅读(6023) 评论(0) 推荐(2)

2020年11月5日

Java并发队列与容器

摘要：【前言：无论是大数据从业人员还是Java从业人员，掌握Java高并发和多线程是必备技能之一。本文主要阐述Java并发包下的阻塞队列和并发容器，其实研读过大数据相关技术如Spark、Storm等源码的，会发现它们底层大多用到了Java并发队列、同步类容器、ReentrantLock等。建议大家结合本篇文章，仔细分析一下相关源码】阅读全文

posted @ 2020-11-05 09:14 大数据学习与分享阅读(523) 评论(1) 推荐(1)

2020年11月4日

重要 | Spark和MapReduce的对比，不仅仅是计算模型？

摘要：笔者将分上下篇文章进行阐述Spark和MapReduce的对比，首篇侧重于"宏观"上的对比，更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spark"之类的问题的几个核心归纳点；次篇则从任务处理级别运用的并行机制/计算模型方面上对比，更多的是让大家对Spark为什么比MapReduce快有一个更深、更全面的认识。通过两篇文章的解读，希望帮助大家对Spark和MapReduce有一个更深入的了解，并且能够在遇到诸如"MapReduce相对于Spark的局限性？"等类似的面试题时能够得到较好地表现，顺利拿下offer 阅读全文

posted @ 2020-11-04 11:47 大数据学习与分享阅读(1983) 评论(0) 推荐(0)

2020年11月2日

Redis从入门到精通

摘要：【前言：本文主要介绍redis，内容丰富且实用，旨在帮助大家对redis有一个更深入、全面的了解以及在实际工作中更好的应用redis，篇幅较长，建议大家收藏，仔细阅读】阅读全文

posted @ 2020-11-02 09:18 大数据学习与分享阅读(490) 评论(0) 推荐(2)

2020年10月30日

关于HDFS应知应会的N个问题 | 技术点

摘要： HDFS（Hadoop Distributed File System）分布式文件存储系统，主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务，同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树，客户端可通过路径来访问文件，如hdfs://namenode:port/dir-a/a.data。HDFS集群分为两大角色：Namenode、Datanode（非HA模式会存在Secondary Namenode）阅读全文

posted @ 2020-10-30 19:56 大数据学习与分享阅读(699) 评论(0) 推荐(1)

Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？

摘要： Spark算子主要划分为两类：transformation和action，并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到，Spark RDD的缓存和checkpoint是懒加载操作，只有action触发的时候才会真正执行，其实不仅是Spark RDD，在Spark其他组件如SparkStreaming中也是如此，这是Spark的一个特性之一。像我们常用的算子map、flatMap、filter都是transformation算子，而collect、count、saveAsTextFile、countByKey、foreach则为action算子阅读全文

posted @ 2020-10-30 10:39 大数据学习与分享阅读(241) 评论(0) 推荐(0)

2020年10月29日

九种常见的数据分析模型

摘要：基于大数据分析促进企业的精细化运营、数据驱动，数据分析模型阅读全文

posted @ 2020-10-29 14:43 大数据学习与分享阅读(7767) 评论(0) 推荐(0)

公告