11 2020 档案

摘要:在利用Spark处理数据时,如果数据量不大,那么Spark的默认配置基本就能满足实际的业务场景。但是当数据量大的时候,就需要做一定的参数配置调整和优化,以保证业务的安全、稳定的运行。并且在实际优化中,要考虑不同的场景,采取不同的优化策略 阅读全文
posted @ 2020-11-30 16:06 大数据学习与分享 阅读(294) 评论(0) 推荐(1)
摘要:Apache Kafka由Scala和Java编写,基于生产者和消费者模型作为开源的分布式发布订阅消息系统。它提供了类似于JMS的特性,但设计上又有很大区别,它不是JMS规范的实现,如Kafka允许多个消费者主动拉取数据,而在JMS中只有点对点模式消费者才会主动拉取数据 阅读全文
posted @ 2020-11-30 09:05 大数据学习与分享 阅读(492) 评论(0) 推荐(0)
摘要:JVM垃圾回收器、内存分配与回收策略 阅读全文
posted @ 2020-11-26 09:06 大数据学习与分享 阅读(332) 评论(0) 推荐(1)
摘要:今天先分享一些笔试中经常遇到的一些编程题,包括解题思路和代码实现 阅读全文
posted @ 2020-11-25 16:39 大数据学习与分享 阅读(452) 评论(0) 推荐(0)
摘要:在阐述HBase高级特性和热点问题处理前,首先回顾一下HBase的特点:分布式、列存储、支持实时读写、存储的数据类型都是字节数组byte[],主要用来处理结构化和半结构化数据,底层数据存储基于hdfs 阅读全文
posted @ 2020-11-25 09:11 大数据学习与分享 阅读(1454) 评论(0) 推荐(0)
摘要:今天先分享一些笔试中经常遇到的一些编程题,包括解题思路和代码实现,下图是本次分享的大纲 阅读全文
posted @ 2020-11-24 18:23 大数据学习与分享 阅读(235) 评论(0) 推荐(0)
摘要:Spark SQL是一个用来处理结构化数据的Spark组件,前身是shark,但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等,制约了Spark各个组件之间的相互集成,因此Spark SQL应运而生 阅读全文
posted @ 2020-11-24 09:01 大数据学习与分享 阅读(731) 评论(0) 推荐(1)
摘要:对于流式应用程序,保证应用7*24小时的稳定运行,是非常必要的。因此对于计算引擎,要求必须能够适应与应用程序逻辑本身无关的问题(比如driver应用失败重启、网络问题、服务器问题、JVM崩溃等),具有自动容错恢复的功能。 阅读全文
posted @ 2020-11-23 15:47 大数据学习与分享 阅读(281) 评论(0) 推荐(0)
摘要:Spark闭包 | driver & executor程序代码执行 ==> 编写的Spark程序代码,运行在driver端还是executor端呢? 阅读全文
posted @ 2020-11-23 09:15 大数据学习与分享 阅读(1599) 评论(0) 推荐(2)
摘要:大家都知道Kafka是将数据存储于磁盘的,而磁盘读写性能往往很差,但Kafka官方测试其数据读写速率能达到600M/s,那么为什么Kafka性能会这么高呢? 阅读全文
posted @ 2020-11-20 08:57 大数据学习与分享 阅读(1350) 评论(0) 推荐(0)
摘要:最近经常有小伙伴留言,核心问题都比较类似,就是虽然接触Spark有一段时间了,但是搞不明白一个问题,为什么我从HDFS上加载不同的文件时,打印的分区数不一样,并且好像spark.default.parallelism这个参数时不是一直起作用?其实笔者之前的文章已有相关介绍,想知道为什么,就必须了解Spark在加载不同的数据源时分区决定机制以及调用不用算子时并行度决定机制以及分区划分。 阅读全文
posted @ 2020-11-19 09:06 大数据学习与分享 阅读(1168) 评论(0) 推荐(0)
摘要:聊聊Spark的分区机制,以及通过spark.default.parallelism谈Spark并行度 阅读全文
posted @ 2020-11-17 08:59 大数据学习与分享 阅读(1278) 评论(0) 推荐(0)
摘要:HBase是一个高可靠、高性能、面向列的,主要用于海量结构化和半结构化数据存储的分布式key-value存储系统。它基于Google Bigtable开源实现,但二者有明显的区别:Google Bigtable基于GFS存储,通过MAPREDUCE处理存储的数据,通过chubby处理协同服务;而HBase底层存储基于hdfs,可以利用MapReduce、Spark等计算引擎处理其存储的数据,通过Zookeeper作为处理HBase集群协同服务 阅读全文
posted @ 2020-11-16 09:02 大数据学习与分享 阅读(615) 评论(0) 推荐(0)
摘要:Hive Join优化以及Hive Join的几个重要特点,在实际使用时也可以利用下列特点做相应优化 阅读全文
posted @ 2020-11-12 09:09 大数据学习与分享 阅读(997) 评论(0) 推荐(0)
摘要:对于Spark开发人员来说,一个比较普遍的问题就是如何合理的配置Spark的硬件?当然如何合理的对Spark集群进行硬件配置要视情况而定,在这里给出一些建议 阅读全文
posted @ 2020-11-11 10:10 大数据学习与分享 阅读(865) 评论(0) 推荐(0)
摘要:Hadoop调优 阅读全文
posted @ 2020-11-10 14:32 大数据学习与分享 阅读(390) 评论(0) 推荐(0)
摘要:Apache Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供一种HQL语言进行查询,具有扩展性好、延展性好、高容错等特点,多应用于离线数仓建设 阅读全文
posted @ 2020-11-09 09:24 大数据学习与分享 阅读(499) 评论(0) 推荐(0)
摘要:Spark是典型的Master/Slave架构,集群主要包括以下4个组件: Driver:Spark框架中的驱动器,运行用户编写Application 的main()函数。类比于MapReduce的MRAppmaster Master:主节点,控制整个集群,监控worker。在Yarn模式中为全局资源管理器 Worker:从节点,负责控制计算节点,启动Executor。类比Yarn中的节点资源管理器 Executor:运算任务执行器,运行在worker节点上的一个进程。类似于MapReduce中的MapTask和ReduceTask 阅读全文
posted @ 2020-11-06 17:59 大数据学习与分享 阅读(244) 评论(0) 推荐(0)
摘要:在说redis中的哈希(准确来说是一致性哈希)问题之前,先来看一个问题:为什么在分布式集群中一致性哈希会得到大量应用? 在一个分布式系统中,要将数据存储到具体某个节点,或者将来自客户端的请求分配到某个服务器节点做负载均衡,如果采用普通的hash取模算法进行映射,即如key.hashCode()%N,key代表数据的key,N是服务器节点数,使用上能达到预期效果。 阅读全文
posted @ 2020-11-06 09:09 大数据学习与分享 阅读(6016) 评论(0) 推荐(2)
摘要:【前言:无论是大数据从业人员还是Java从业人员,掌握Java高并发和多线程是必备技能之一。本文主要阐述Java并发包下的阻塞队列和并发容器,其实研读过大数据相关技术如Spark、Storm等源码的,会发现它们底层大多用到了Java并发队列、同步类容器、ReentrantLock等。建议大家结合本篇文章,仔细分析一下相关源码】 阅读全文
posted @ 2020-11-05 09:14 大数据学习与分享 阅读(520) 评论(1) 推荐(1)
摘要:笔者将分上下篇文章进行阐述Spark和MapReduce的对比,首篇侧重于"宏观"上的对比,更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spark"之类的问题的几个核心归纳点;次篇则从任务处理级别运用的并行机制/计算模型方面上对比,更多的是让大家对Spark为什么比MapReduce快有一个更深、更全面的认识。通过两篇文章的解读,希望帮助大家对Spark和MapReduce有一个更深入的了解,并且能够在遇到诸如"MapReduce相对于Spark的局限性?"等类似的面试题时能够得到较好地表现,顺利拿下offer 阅读全文
posted @ 2020-11-04 11:47 大数据学习与分享 阅读(1963) 评论(0) 推荐(0)
摘要:【前言:本文主要介绍redis,内容丰富且实用,旨在帮助大家对redis有一个更深入、全面的了解以及在实际工作中更好的应用redis,篇幅较长,建议大家收藏,仔细阅读】 阅读全文
posted @ 2020-11-02 09:18 大数据学习与分享 阅读(484) 评论(0) 推荐(2)