摘要:
spark-sql是用来处理结构化数据的模块,是入门spark的首要模块。 技术的学习无非就是去了解它的API,但是Spark有点难,因为它的例子和网上能搜到的基本都是Scala写的。我们这里使用Java。 入门例子 数据处理的第一个例子通常都是word count,就是统计一个文件里每个单词出现了 阅读全文
posted @ 2021-12-03 11:29
大卫小东(Sheldon)
阅读(904)
评论(0)
推荐(0)
摘要:
Spark 是离线数据处理的一种大数据技术,和Flick相比数据处理要延后,因为Flick是实时数据处理,而Spark需要先读取数据到内存。 Spark的库是基于Scala写的,虽然Scala也是运行在jvm上的,但是Spark提供的Java api的能力和原生api并不完全相同,据说执行效率也有微 阅读全文
posted @ 2021-12-03 11:08
大卫小东(Sheldon)
阅读(3520)
评论(0)
推荐(0)
浙公网安备 33010602011771号