会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大数据学习与分享
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
下一页
2020年12月21日
自适应查询执行:在运行时提升Spark SQL执行性能
摘要: Catalyst是Spark SQL核心优化器,早期主要基于规则的优化器RBO,后期又引入基于代价进行优化的CBO。但是在这些版本中,Spark SQL执行计划一旦确定就不会改变。由于
阅读全文
posted @ 2020-12-21 09:22 大数据学习与分享
阅读(1608)
评论(0)
推荐(0)
2020年12月18日
Scala中的IO操作及ArrayBuffer线程安全问题
摘要: 通过Scala对文件进行读写操作在实际业务中应用也比较多,这里介绍几种常用的方式。相信使用Scala进行应用开发时,ArrayBuffer是经常使用的数组。对ArrayBuffer进行新增元素时,通常使用方法:+=
阅读全文
posted @ 2020-12-18 09:23 大数据学习与分享
阅读(243)
评论(0)
推荐(0)
2020年12月17日
Spark SQL 小文件问题处理
摘要: 在生产中,无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据,在Spark SQL写数据时,往往会遇到生成的小文件过多的问题,而管理这些大量的小文件,是一件非常头疼的事情。大量的小文件会影响
阅读全文
posted @ 2020-12-17 09:27 大数据学习与分享
阅读(2615)
评论(0)
推荐(0)
2020年12月16日
学好Spark/Kafka必须要掌握的Scala技术点(三)高阶函数、方法、柯里化、隐式转换
摘要: 建议在用Scala编写相关功能实现时,边学习、边应用、边摸索以加深对Scala的理解和应用
阅读全文
posted @ 2020-12-16 09:06 大数据学习与分享
阅读(324)
评论(0)
推荐(0)
2020年12月15日
学好Spark/Kafka必须要掌握的Scala技术点(二)类、单例/伴生对象、继承和trait,模式匹配、样例类(case class)
摘要: Scala是以JVM为运行环境的面向对象的函数式编程语言,它可以直接访问Java类库并且与Java框架进行交互操作
阅读全文
posted @ 2020-12-15 09:01 大数据学习与分享
阅读(583)
评论(0)
推荐(1)
2020年12月14日
学好Spark/Kafka必须要掌握的Scala技术点(一)变量、表达式、循环、Option、方法和函数,数组、映射、元组、集合
摘要: Scala是以JVM为运行环境的面向对象的函数式编程语言,它可以直接访问Java类库并且与Java框架进行交互操作
阅读全文
posted @ 2020-12-14 09:06 大数据学习与分享
阅读(332)
评论(1)
推荐(1)
2020年12月11日
Spark/Scala实现推荐系统中的相似度算法(欧几里得距离、皮尔逊相关系数、余弦相似度:附实现代码)
摘要: 在推荐系统中,协同过滤算法是应用较多的,具体又主要划分为基于用户和基于物品的协同过滤算法,核心点就是基于"一个人"或"一件物品",根据这个人或物品所具有的属性,比如
阅读全文
posted @ 2020-12-11 08:57 大数据学习与分享
阅读(1448)
评论(0)
推荐(0)
2020年12月10日
从HBase底层原理解析HBASE列族不能设计太多的原因?
摘要: 在之前的文章《深入探讨HBASE》中,笔者详细介绍了
阅读全文
posted @ 2020-12-10 11:24 大数据学习与分享
阅读(330)
评论(0)
推荐(0)
2020年12月9日
Spark流式状态管理(updateStateByKey、mapWithState等)
摘要: 通常使用Spark的流式框架如Spark Streaming,做无状态的流式计算是非常方便的,仅需处理每个批次时间间隔内的数据即可,不需要关注之前的数据,这是建立在业务需求对批次之间的数据没有联系的基础之上的。但如果
阅读全文
posted @ 2020-12-09 08:58 大数据学习与分享
阅读(570)
评论(0)
推荐(0)
2020年12月8日
Hive数据导入HBase引起数据膨胀引发的思考
摘要: 在做一些数据的迁移,主要是将一些Hive处理之后的热数据导入到HBase中,但是遇到了一个很奇怪的问题:同样的数据到了HBase中,所占空间竟增长了好几倍!
阅读全文
posted @ 2020-12-08 08:59 大数据学习与分享
阅读(456)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
下一页
公告