摘要: Hadoop调优 阅读全文
posted @ 2020-11-10 14:32 大数据学习与分享 阅读(339) 评论(0) 推荐(0) 编辑
摘要: Apache Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供一种HQL语言进行查询,具有扩展性好、延展性好、高容错等特点,多应用于离线数仓建设 阅读全文
posted @ 2020-11-09 09:24 大数据学习与分享 阅读(407) 评论(0) 推荐(0) 编辑
摘要: Spark是典型的Master/Slave架构,集群主要包括以下4个组件: Driver:Spark框架中的驱动器,运行用户编写Application 的main()函数。类比于MapReduce的MRAppmaster Master:主节点,控制整个集群,监控worker。在Yarn模式中为全局资源管理器 Worker:从节点,负责控制计算节点,启动Executor。类比Yarn中的节点资源管理器 Executor:运算任务执行器,运行在worker节点上的一个进程。类似于MapReduce中的MapTask和ReduceTask 阅读全文
posted @ 2020-11-06 17:59 大数据学习与分享 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 在说redis中的哈希(准确来说是一致性哈希)问题之前,先来看一个问题:为什么在分布式集群中一致性哈希会得到大量应用? 在一个分布式系统中,要将数据存储到具体某个节点,或者将来自客户端的请求分配到某个服务器节点做负载均衡,如果采用普通的hash取模算法进行映射,即如key.hashCode()%N,key代表数据的key,N是服务器节点数,使用上能达到预期效果。 阅读全文
posted @ 2020-11-06 09:09 大数据学习与分享 阅读(5940) 评论(0) 推荐(2) 编辑
摘要: 【前言:无论是大数据从业人员还是Java从业人员,掌握Java高并发和多线程是必备技能之一。本文主要阐述Java并发包下的阻塞队列和并发容器,其实研读过大数据相关技术如Spark、Storm等源码的,会发现它们底层大多用到了Java并发队列、同步类容器、ReentrantLock等。建议大家结合本篇文章,仔细分析一下相关源码】 阅读全文
posted @ 2020-11-05 09:14 大数据学习与分享 阅读(492) 评论(1) 推荐(1) 编辑
摘要: 笔者将分上下篇文章进行阐述Spark和MapReduce的对比,首篇侧重于"宏观"上的对比,更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spark"之类的问题的几个核心归纳点;次篇则从任务处理级别运用的并行机制/计算模型方面上对比,更多的是让大家对Spark为什么比MapReduce快有一个更深、更全面的认识。通过两篇文章的解读,希望帮助大家对Spark和MapReduce有一个更深入的了解,并且能够在遇到诸如"MapReduce相对于Spark的局限性?"等类似的面试题时能够得到较好地表现,顺利拿下offer 阅读全文
posted @ 2020-11-04 11:47 大数据学习与分享 阅读(1473) 评论(0) 推荐(0) 编辑
摘要: 【前言:本文主要介绍redis,内容丰富且实用,旨在帮助大家对redis有一个更深入、全面的了解以及在实际工作中更好的应用redis,篇幅较长,建议大家收藏,仔细阅读】 阅读全文
posted @ 2020-11-02 09:18 大数据学习与分享 阅读(460) 评论(0) 推荐(2) 编辑
摘要: HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件,如hdfs://namenode:port/dir-a/a.data。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode) 阅读全文
posted @ 2020-10-30 19:56 大数据学习与分享 阅读(560) 评论(0) 推荐(1) 编辑
摘要: Spark算子主要划分为两类:transformation和action,并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到,Spark RDD的缓存和checkpoint是懒加载操作,只有action触发的时候才会真正执行,其实不仅是Spark RDD,在Spark其他组件如SparkStreaming中也是如此,这是Spark的一个特性之一。像我们常用的算子map、flatMap、filter都是transformation算子,而collect、count、saveAsTextFile、countByKey、foreach则为action算子 阅读全文
posted @ 2020-10-30 10:39 大数据学习与分享 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 基于大数据分析促进企业的精细化运营、数据驱动,数据分析模型 阅读全文
posted @ 2020-10-29 14:43 大数据学习与分享 阅读(7467) 评论(0) 推荐(0) 编辑