摘要: Catalyst是Spark SQL核心优化器,早期主要基于规则的优化器RBO,后期又引入基于代价进行优化的CBO。但是在这些版本中,Spark SQL执行计划一旦确定就不会改变。由于 阅读全文
posted @ 2020-12-21 09:22 大数据学习与分享 阅读(1608) 评论(0) 推荐(0)
摘要: 通过Scala对文件进行读写操作在实际业务中应用也比较多,这里介绍几种常用的方式。相信使用Scala进行应用开发时,ArrayBuffer是经常使用的数组。对ArrayBuffer进行新增元素时,通常使用方法:+= 阅读全文
posted @ 2020-12-18 09:23 大数据学习与分享 阅读(243) 评论(0) 推荐(0)
摘要: 在生产中,无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据,在Spark SQL写数据时,往往会遇到生成的小文件过多的问题,而管理这些大量的小文件,是一件非常头疼的事情。大量的小文件会影响 阅读全文
posted @ 2020-12-17 09:27 大数据学习与分享 阅读(2615) 评论(0) 推荐(0)
摘要: 建议在用Scala编写相关功能实现时,边学习、边应用、边摸索以加深对Scala的理解和应用 阅读全文
posted @ 2020-12-16 09:06 大数据学习与分享 阅读(324) 评论(0) 推荐(0)
摘要: Scala是以JVM为运行环境的面向对象的函数式编程语言,它可以直接访问Java类库并且与Java框架进行交互操作 阅读全文
posted @ 2020-12-15 09:01 大数据学习与分享 阅读(583) 评论(0) 推荐(1)
摘要: Scala是以JVM为运行环境的面向对象的函数式编程语言,它可以直接访问Java类库并且与Java框架进行交互操作 阅读全文
posted @ 2020-12-14 09:06 大数据学习与分享 阅读(332) 评论(1) 推荐(1)
摘要: 在推荐系统中,协同过滤算法是应用较多的,具体又主要划分为基于用户和基于物品的协同过滤算法,核心点就是基于"一个人"或"一件物品",根据这个人或物品所具有的属性,比如 阅读全文
posted @ 2020-12-11 08:57 大数据学习与分享 阅读(1448) 评论(0) 推荐(0)
摘要: 在之前的文章《深入探讨HBASE》中,笔者详细介绍了 阅读全文
posted @ 2020-12-10 11:24 大数据学习与分享 阅读(330) 评论(0) 推荐(0)
摘要: 通常使用Spark的流式框架如Spark Streaming,做无状态的流式计算是非常方便的,仅需处理每个批次时间间隔内的数据即可,不需要关注之前的数据,这是建立在业务需求对批次之间的数据没有联系的基础之上的。但如果 阅读全文
posted @ 2020-12-09 08:58 大数据学习与分享 阅读(570) 评论(0) 推荐(0)
摘要: 在做一些数据的迁移,主要是将一些Hive处理之后的热数据导入到HBase中,但是遇到了一个很奇怪的问题:同样的数据到了HBase中,所占空间竟增长了好几倍! 阅读全文
posted @ 2020-12-08 08:59 大数据学习与分享 阅读(456) 评论(0) 推荐(0)