2019 年 4月 25 日随笔档案 - 梦醒江南·Infinite

2019年4月25日

摘要： UDAF：用户自定义聚合函数 Scala 2.10.7，spark 2.0.0 阅读全文

posted @ 2019-04-25 16:26 梦醒江南·Infinite 阅读(565) 评论(0) 推荐(0)

摘要： UDF即用户自定函数，注册之后，在sql语句中使用。基于scala-sdk-2.10.7，Spark2.0.0。结果阅读全文

posted @ 2019-04-25 15:46 梦醒江南·Infinite 阅读(583) 评论(0) 推荐(0)

摘要： Spark SQL是Spark中用于结构化数据处理的组件。 Spark SQL可以从Hive中读取数据。执行结果是Dataset/DataFrame。 DataFrame是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还掌握数据的结构信息，即schema。同时，阅读全文

posted @ 2019-04-25 13:55 梦醒江南·Infinite 阅读(496) 评论(0) 推荐(0)

Spark RDD

摘要： RDD(Resilient Distributed Dateset)，弹性分布式数据集。  ◆哪里体现RDD的弹性？ 1.partition的个数阅读全文

posted @ 2019-04-25 10:54 梦醒江南·Infinite 阅读(124) 评论(0) 推荐(0)

Spark2.0.0内存管理

摘要：来源：http://spark.apache.org/docs/2.0.0/configuration.html spark中的内存使用主要分为两类：执行和存储。执行内存指的是用于shuffles、join、sorts 和aggregations中的计算的内存，而存储内存指的是用于在集群中cache 阅读全文

posted @ 2019-04-25 10:22 梦醒江南·Infinite 阅读(314) 评论(0) 推荐(0)

会挽雕弓如满月

公告