大数据学习与分享

摘要：从内存泄露、内存溢出和堆外内存，JVM优化参数配置参数谈起阅读全文

posted @ 2020-12-07 09:13 大数据学习与分享阅读(769) 评论(0) 推荐(0)

摘要：利用Spark往Hive中存储parquet数据，针对一些复杂数据类型如map、array、struct的处理遇到的问题？为了更好的说明导致问题阅读全文

posted @ 2020-12-04 09:08 大数据学习与分享阅读(1548) 评论(0) 推荐(0)

摘要：首先说一下，这里解决的问题应用场景：sparksql处理Hive表数据时，判断加载的是否是分区表，以及分区表的字段有哪些？再进一步限制查询分区表必须指定分区？这里涉及到两种情况阅读全文

posted @ 2020-12-03 08:57 大数据学习与分享阅读(1812) 评论(0) 推荐(1)

摘要： HBase在WAL机制开启的情况下，不考虑块缓存，数据日志会先写入HLog，然后进入Memstore，最后持久化到HFile中。HFile是存储在hdfs上的，WAL预写日志也是，但Memstore是在内存的阅读全文

posted @ 2020-12-02 09:01 大数据学习与分享阅读(513) 评论(0) 推荐(0)

摘要： HDFS是大数据领域比较知名的分布式存储系统，作为大数据相关从业人员，每天处理HDFS上的文件数据是常规操作。这就容易带来一个问题，实际操作中对重要数据文件的误删，那么如何恢复这些文件，就显得尤为重要阅读全文

posted @ 2020-12-01 09:03 大数据学习与分享阅读(3994) 评论(0) 推荐(0)

摘要：在利用Spark处理数据时，如果数据量不大，那么Spark的默认配置基本就能满足实际的业务场景。但是当数据量大的时候，就需要做一定的参数配置调整和优化，以保证业务的安全、稳定的运行。并且在实际优化中，要考虑不同的场景，采取不同的优化策略阅读全文

posted @ 2020-11-30 16:06 大数据学习与分享阅读(297) 评论(0) 推荐(1)

摘要： Apache Kafka由Scala和Java编写，基于生产者和消费者模型作为开源的分布式发布订阅消息系统。它提供了类似于JMS的特性，但设计上又有很大区别，它不是JMS规范的实现，如Kafka允许多个消费者主动拉取数据，而在JMS中只有点对点模式消费者才会主动拉取数据阅读全文

posted @ 2020-11-30 09:05 大数据学习与分享阅读(499) 评论(0) 推荐(0)

摘要： JVM垃圾回收器、内存分配与回收策略阅读全文

posted @ 2020-11-26 09:06 大数据学习与分享阅读(350) 评论(0) 推荐(1)

摘要：今天先分享一些笔试中经常遇到的一些编程题，包括解题思路和代码实现阅读全文

posted @ 2020-11-25 16:39 大数据学习与分享阅读(461) 评论(0) 推荐(0)

摘要：在阐述HBase高级特性和热点问题处理前，首先回顾一下HBase的特点：分布式、列存储、支持实时读写、存储的数据类型都是字节数组byte[]，主要用来处理结构化和半结构化数据，底层数据存储基于hdfs 阅读全文

posted @ 2020-11-25 09:11 大数据学习与分享阅读(1462) 评论(0) 推荐(0)