dataframe
摘要:https://blog.csdn.net/yisun123456/article/details/90677924
阅读全文
RDD
摘要:https://www.cnblogs.com/qingyunzong/p/8899715.html
阅读全文
广播变量
摘要:广播变量只能在Driver端定义,不能在Executor端定义。 在Driver端可以修改广播变量的值,在Executor端无法修改广播变量的值。 https://blog.csdn.net/Android_xue/article/details/79780463
阅读全文
Shuffle
摘要:shuffle 是划分 DAG 中 stage 的标识,同时影响 Spark 执行速度的关键步骤. Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节
阅读全文
Pipelines
摘要:https://blog.csdn.net/buracag_mc/article/details/100155599 ML Pipelines提供了一组基于DataFrame构建的统一的高级API,可帮助用户创建和调整实用的机器学习流程。
阅读全文
RDD、DataFrame和DataSet
摘要:https://blog.csdn.net/weixin_43087634/article/details/84398036 2、什么是DataFrame 在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。 3、RDD和DataFrame的区别 Da
阅读全文
RDD
摘要:RDD 的操作函数(operation)主要分为2种类型 Transformation 和 Action. 在这里只读表示当你对一个 RDD 进行了操作,那么结果将会是一个新的 RDD, 这种情况放在代码里,假设变换前后都是使用同一个变量表示这一 RDD, RDD 里面的数据并不是真实的数据,而是一
阅读全文