2020 年 12月随笔档案 - 大数据学习与分享

Hadoop支持的压缩格式对比和应用场景以及Hadoop native库

摘要：对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的，而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。此时阅读全文

posted @ 2020-12-31 11:12 大数据学习与分享阅读(506) 评论(0) 推荐(0)

自适应查询执行：在运行时提升Spark SQL执行性能

摘要：Catalyst是Spark SQL核心优化器，早期主要基于规则的优化器RBO，后期又引入基于代价进行优化的CBO。但是在这些版本中，Spark SQL执行计划一旦确定就不会改变。由于阅读全文

posted @ 2020-12-21 09:22 大数据学习与分享阅读(1622) 评论(0) 推荐(0)

Scala中的IO操作及ArrayBuffer线程安全问题

摘要：通过Scala对文件进行读写操作在实际业务中应用也比较多，这里介绍几种常用的方式。相信使用Scala进行应用开发时，ArrayBuffer是经常使用的数组。对ArrayBuffer进行新增元素时，通常使用方法：+= 阅读全文

posted @ 2020-12-18 09:23 大数据学习与分享阅读(246) 评论(0) 推荐(0)

Spark SQL 小文件问题处理

摘要：在生产中，无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据，在Spark SQL写数据时，往往会遇到生成的小文件过多的问题，而管理这些大量的小文件，是一件非常头疼的事情。大量的小文件会影响阅读全文

posted @ 2020-12-17 09:27 大数据学习与分享阅读(2623) 评论(0) 推荐(0)

学好Spark/Kafka必须要掌握的Scala技术点（三）高阶函数、方法、柯里化、隐式转换

摘要：建议在用Scala编写相关功能实现时，边学习、边应用、边摸索以加深对Scala的理解和应用阅读全文

posted @ 2020-12-16 09:06 大数据学习与分享阅读(326) 评论(0) 推荐(0)

学好Spark/Kafka必须要掌握的Scala技术点（二）类、单例/伴生对象、继承和trait，模式匹配、样例类（case class）

摘要：Scala是以JVM为运行环境的面向对象的函数式编程语言，它可以直接访问Java类库并且与Java框架进行交互操作阅读全文

posted @ 2020-12-15 09:01 大数据学习与分享阅读(587) 评论(0) 推荐(1)

学好Spark/Kafka必须要掌握的Scala技术点（一）变量、表达式、循环、Option、方法和函数，数组、映射、元组、集合

摘要：Scala是以JVM为运行环境的面向对象的函数式编程语言，它可以直接访问Java类库并且与Java框架进行交互操作阅读全文

posted @ 2020-12-14 09:06 大数据学习与分享阅读(335) 评论(1) 推荐(1)

摘要：在推荐系统中，协同过滤算法是应用较多的，具体又主要划分为基于用户和基于物品的协同过滤算法，核心点就是基于"一个人"或"一件物品"，根据这个人或物品所具有的属性，比如阅读全文

posted @ 2020-12-11 08:57 大数据学习与分享阅读(1469) 评论(0) 推荐(0)

从HBase底层原理解析HBASE列族不能设计太多的原因？

摘要：在之前的文章《深入探讨HBASE》中，笔者详细介绍了阅读全文

posted @ 2020-12-10 11:24 大数据学习与分享阅读(337) 评论(0) 推荐(0)

Spark流式状态管理（updateStateByKey、mapWithState等）

摘要：通常使用Spark的流式框架如Spark Streaming，做无状态的流式计算是非常方便的，仅需处理每个批次时间间隔内的数据即可，不需要关注之前的数据，这是建立在业务需求对批次之间的数据没有联系的基础之上的。但如果阅读全文

posted @ 2020-12-09 08:58 大数据学习与分享阅读(577) 评论(0) 推荐(0)

Hive数据导入HBase引起数据膨胀引发的思考

摘要：在做一些数据的迁移，主要是将一些Hive处理之后的热数据导入到HBase中，但是遇到了一个很奇怪的问题：同样的数据到了HBase中，所占空间竟增长了好几倍！阅读全文

posted @ 2020-12-08 08:59 大数据学习与分享阅读(463) 评论(0) 推荐(0)

从内存泄露、内存溢出和堆外内存，JVM优化参数配置参数

摘要：从内存泄露、内存溢出和堆外内存，JVM优化参数配置参数谈起阅读全文

posted @ 2020-12-07 09:13 大数据学习与分享阅读(769) 评论(0) 推荐(0)

Spark存储Parquet数据到Hive，对map、array、struct字段类型的处理

摘要：利用Spark往Hive中存储parquet数据，针对一些复杂数据类型如map、array、struct的处理遇到的问题？为了更好的说明导致问题阅读全文

posted @ 2020-12-04 09:08 大数据学习与分享阅读(1551) 评论(0) 推荐(0)

Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件

摘要：首先说一下，这里解决的问题应用场景：sparksql处理Hive表数据时，判断加载的是否是分区表，以及分区表的字段有哪些？再进一步限制查询分区表必须指定分区？这里涉及到两种情况阅读全文

posted @ 2020-12-03 08:57 大数据学习与分享阅读(1813) 评论(0) 推荐(1)

HBase中Memstore存在的意义以及多列族引起的问题和设计

摘要：HBase在WAL机制开启的情况下，不考虑块缓存，数据日志会先写入HLog，然后进入Memstore，最后持久化到HFile中。HFile是存储在hdfs上的，WAL预写日志也是，但Memstore是在内存的阅读全文

posted @ 2020-12-02 09:01 大数据学习与分享阅读(513) 评论(0) 推荐(0)

如何有效恢复误删的HDFS文件

摘要：HDFS是大数据领域比较知名的分布式存储系统，作为大数据相关从业人员，每天处理HDFS上的文件数据是常规操作。这就容易带来一个问题，实际操作中对重要数据文件的误删，那么如何恢复这些文件，就显得尤为重要阅读全文

posted @ 2020-12-01 09:03 大数据学习与分享阅读(3999) 评论(0) 推荐(0)

12 2020 档案

公告