05 2017 档案

摘要:在sparkstreaming中对窗口范围进行reduce主要有下面四个方法, 其他方法都是直接或者间接调用下面的方法来获取结果 对非(K,V)形式的RDD 窗口化reduce: 对(K,V)形式RDD 按Key窗口化reduce: 从方法上面来看, 理解和使用#1的方法确实非常简单, 但是在大数据 阅读全文
posted @ 2017-05-11 15:35 粒子先生 阅读(2702) 评论(0) 推荐(1)
摘要:一,创建RDD 最简单的方式就是把程序中一个已有的集合传给SparkContext 的parallelize()方法: 二、更常用的方式是从外部存储中读取数据来创建RDD: 阅读全文
posted @ 2017-05-02 11:14 粒子先生 阅读(1223) 评论(0) 推荐(0)
摘要:转自:https://www.shiyanlou.com/courses/543/labs/1835/document https://www.shiyanlou.com/courses/536/labs/1818/document 一、从 RDD 创建 DataFrame: Step 3:定义 c 阅读全文
posted @ 2017-05-02 10:53 粒子先生 阅读(5389) 评论(0) 推荐(0)