摘要:
UDAF:用户自定义聚合函数 Scala 2.10.7,spark 2.0.0 阅读全文
posted @ 2019-04-25 16:26
梦醒江南·Infinite
阅读(565)
评论(0)
推荐(0)
摘要:
UDF即用户自定函数,注册之后,在sql语句中使用。 基于scala-sdk-2.10.7,Spark2.0.0。 结果 阅读全文
posted @ 2019-04-25 15:46
梦醒江南·Infinite
阅读(583)
评论(0)
推荐(0)
摘要:
Spark SQL是Spark中用于结构化数据处理的组件。 Spark SQL可以从Hive中读取数据。 执行结果是Dataset/DataFrame。 DataFrame是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数据以外,还掌握数据的结构信息,即schema。同时, 阅读全文
posted @ 2019-04-25 13:55
梦醒江南·Infinite
阅读(496)
评论(0)
推荐(0)
摘要:
RDD(Resilient Distributed Dateset),弹性分布式数据集。 <!-- ^ Position is not set to relative / absolute here because of Mozilla --> ◆哪里体现RDD的弹性? 1.partition的个数 阅读全文
posted @ 2019-04-25 10:54
梦醒江南·Infinite
阅读(124)
评论(0)
推荐(0)
摘要:
来源:http://spark.apache.org/docs/2.0.0/configuration.html spark中的内存使用主要分为两类:执行和存储。执行内存指的是用于shuffles、join、sorts 和aggregations中的计算的内存,而存储内存指的是用于在集群中cache 阅读全文
posted @ 2019-04-25 10:22
梦醒江南·Infinite
阅读(314)
评论(0)
推荐(0)

浙公网安备 33010602011771号