摘要: 从内存泄露、内存溢出和堆外内存,JVM优化参数配置参数谈起 阅读全文
posted @ 2020-12-07 09:13 大数据学习与分享 阅读(692) 评论(0) 推荐(0) 编辑
摘要: 利用Spark往Hive中存储parquet数据,针对一些复杂数据类型如map、array、struct的处理遇到的问题?为了更好的说明导致问题 阅读全文
posted @ 2020-12-04 09:08 大数据学习与分享 阅读(1244) 评论(0) 推荐(0) 编辑
摘要: 首先说一下,这里解决的问题应用场景:sparksql处理Hive表数据时,判断加载的是否是分区表,以及分区表的字段有哪些?再进一步限制查询分区表必须指定分区?这里涉及到两种情况 阅读全文
posted @ 2020-12-03 08:57 大数据学习与分享 阅读(1601) 评论(0) 推荐(1) 编辑
摘要: HBase在WAL机制开启的情况下,不考虑块缓存,数据日志会先写入HLog,然后进入Memstore,最后持久化到HFile中。HFile是存储在hdfs上的,WAL预写日志也是,但Memstore是在内存的 阅读全文
posted @ 2020-12-02 09:01 大数据学习与分享 阅读(440) 评论(0) 推荐(0) 编辑
摘要: HDFS是大数据领域比较知名的分布式存储系统,作为大数据相关从业人员,每天处理HDFS上的文件数据是常规操作。这就容易带来一个问题,实际操作中对重要数据文件的误删,那么如何恢复这些文件,就显得尤为重要 阅读全文
posted @ 2020-12-01 09:03 大数据学习与分享 阅读(3396) 评论(0) 推荐(0) 编辑
摘要: 在利用Spark处理数据时,如果数据量不大,那么Spark的默认配置基本就能满足实际的业务场景。但是当数据量大的时候,就需要做一定的参数配置调整和优化,以保证业务的安全、稳定的运行。并且在实际优化中,要考虑不同的场景,采取不同的优化策略 阅读全文
posted @ 2020-11-30 16:06 大数据学习与分享 阅读(261) 评论(0) 推荐(1) 编辑
摘要: Apache Kafka由Scala和Java编写,基于生产者和消费者模型作为开源的分布式发布订阅消息系统。它提供了类似于JMS的特性,但设计上又有很大区别,它不是JMS规范的实现,如Kafka允许多个消费者主动拉取数据,而在JMS中只有点对点模式消费者才会主动拉取数据 阅读全文
posted @ 2020-11-30 09:05 大数据学习与分享 阅读(447) 评论(0) 推荐(0) 编辑
摘要: JVM垃圾回收器、内存分配与回收策略 阅读全文
posted @ 2020-11-26 09:06 大数据学习与分享 阅读(301) 评论(0) 推荐(1) 编辑
摘要: 今天先分享一些笔试中经常遇到的一些编程题,包括解题思路和代码实现 阅读全文
posted @ 2020-11-25 16:39 大数据学习与分享 阅读(348) 评论(0) 推荐(0) 编辑
摘要: 在阐述HBase高级特性和热点问题处理前,首先回顾一下HBase的特点:分布式、列存储、支持实时读写、存储的数据类型都是字节数组byte[],主要用来处理结构化和半结构化数据,底层数据存储基于hdfs 阅读全文
posted @ 2020-11-25 09:11 大数据学习与分享 阅读(1319) 评论(0) 推荐(0) 编辑