大数据学习与分享

摘要： Catalyst是Spark SQL核心优化器，早期主要基于规则的优化器RBO，后期又引入基于代价进行优化的CBO。但是在这些版本中，Spark SQL执行计划一旦确定就不会改变。由于阅读全文

posted @ 2020-12-21 09:22 大数据学习与分享阅读(1620) 评论(0) 推荐(0)

摘要：通过Scala对文件进行读写操作在实际业务中应用也比较多，这里介绍几种常用的方式。相信使用Scala进行应用开发时，ArrayBuffer是经常使用的数组。对ArrayBuffer进行新增元素时，通常使用方法：+= 阅读全文

posted @ 2020-12-18 09:23 大数据学习与分享阅读(246) 评论(0) 推荐(0)

摘要：在生产中，无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据，在Spark SQL写数据时，往往会遇到生成的小文件过多的问题，而管理这些大量的小文件，是一件非常头疼的事情。大量的小文件会影响阅读全文

posted @ 2020-12-17 09:27 大数据学习与分享阅读(2621) 评论(0) 推荐(0)

摘要：建议在用Scala编写相关功能实现时，边学习、边应用、边摸索以加深对Scala的理解和应用阅读全文

posted @ 2020-12-16 09:06 大数据学习与分享阅读(326) 评论(0) 推荐(0)

摘要： Scala是以JVM为运行环境的面向对象的函数式编程语言，它可以直接访问Java类库并且与Java框架进行交互操作阅读全文

posted @ 2020-12-15 09:01 大数据学习与分享阅读(587) 评论(0) 推荐(1)

摘要： Scala是以JVM为运行环境的面向对象的函数式编程语言，它可以直接访问Java类库并且与Java框架进行交互操作阅读全文

posted @ 2020-12-14 09:06 大数据学习与分享阅读(333) 评论(1) 推荐(1)

摘要：在推荐系统中，协同过滤算法是应用较多的，具体又主要划分为基于用户和基于物品的协同过滤算法，核心点就是基于"一个人"或"一件物品"，根据这个人或物品所具有的属性，比如阅读全文

posted @ 2020-12-11 08:57 大数据学习与分享阅读(1468) 评论(0) 推荐(0)

摘要：在之前的文章《深入探讨HBASE》中，笔者详细介绍了阅读全文

posted @ 2020-12-10 11:24 大数据学习与分享阅读(336) 评论(0) 推荐(0)

摘要：通常使用Spark的流式框架如Spark Streaming，做无状态的流式计算是非常方便的，仅需处理每个批次时间间隔内的数据即可，不需要关注之前的数据，这是建立在业务需求对批次之间的数据没有联系的基础之上的。但如果阅读全文

posted @ 2020-12-09 08:58 大数据学习与分享阅读(576) 评论(0) 推荐(0)

摘要：在做一些数据的迁移，主要是将一些Hive处理之后的热数据导入到HBase中，但是遇到了一个很奇怪的问题：同样的数据到了HBase中，所占空间竟增长了好几倍！阅读全文

posted @ 2020-12-08 08:59 大数据学习与分享阅读(462) 评论(0) 推荐(0)