摘要: Spark DataFrame及RDD与DataSet转换成DataFrame 一、什么是DataFrame DataFrame和RDD一样,也是Spark的一种弹性分布式数据集,它是一个由列组成的数据集,概念上等同于关系型数据库中的一张表。DataFrame可以从非常宽泛的数据源中的构建,比如结构 阅读全文
posted @ 2018-08-11 10:51 leboop 阅读(2178) 评论(0) 推荐(0) 编辑
摘要: 一、什么是DataSet DataSet同RDD和DataFrame一样,也是Spark的一种弹性分布式数据集。它是Spark 1.6增加的新接口。我们可以从JVM的对象构造一个DataSet,然后使用map,flatMap,filter等等这样的函数式变换操作它。 二、创建DataSet 首先需要 阅读全文
posted @ 2018-08-11 10:49 leboop 阅读(487) 评论(0) 推荐(0) 编辑
摘要: Spark RDD和DataSet与DataFrame转换成RDD 一、什么是RDD RDD是弹性分布式数据集(resilient distributed dataset) 的简称,是一个可以参与并行操作并且可容错的元素集合。什么是并行操作呢?例如,对于一个含4个元素的数组Array,元素分别为1, 阅读全文
posted @ 2018-08-10 15:46 leboop 阅读(12918) 评论(0) 推荐(1) 编辑
摘要: Apache Mahout之协同过滤原理与实践 读书时期,选课是令人怀念的,因为自由,学生可以挑选自己喜爱的课程和老师!然而,过程并不是很美好,“系统繁忙,稍后重试!”屡有发生,于是大伙开心地约定今夜不战不休。西门的七彩路,和网吧名一样,我们从门口路过,进的却是右旁的可媛。这里网页同样坚持“系统繁忙 阅读全文
posted @ 2018-08-10 11:10 leboop 阅读(4991) 评论(1) 推荐(4) 编辑
摘要: 随时随地记录,我在路上! 随时随地学习,我在路上! 随时随地分享,我在路上! 一份坚持, 一份收获, 我与博客园一起成长! 阅读全文
posted @ 2018-08-03 09:31 leboop 阅读(88) 评论(0) 推荐(0) 编辑