上一页 1 2 3 4 5 6 7 8 9 10 ··· 20 下一页
摘要: val dfList = List(("Hadoop", "Java,SQL,Hive,HBase,MySQL"), ("Spark", "Scala,SQL,DataSet,MLlib,GraphX")) dfList: List[(String, String)] = List((Hadoop,Java,SQL,Hive,HBase,MySQL), (Spark,Scala,SQL,Data... 阅读全文
posted @ 2016-11-28 19:05 智能先行者 阅读(6684) 评论(0) 推荐(1) 编辑
摘要: row_number,rank,dense_rank,percent_rank 阅读全文
posted @ 2016-11-25 18:34 智能先行者 阅读(7931) 评论(0) 推荐(0) 编辑
摘要: val df6 = spark.sql("select gender,children,max(age),avg(age),count(age) from Affairs group by Cube(gender,children) order by 1,2") df6.show +------+--------+--------+--------+----------+ ... 阅读全文
posted @ 2016-11-25 18:23 智能先行者 阅读(3312) 评论(1) 推荐(0) 编辑
摘要: mean均值,variance方差,stddev标准差,corr(Pearson相关系数),skewness偏度,kurtosis峰度 阅读全文
posted @ 2016-11-25 17:55 智能先行者 阅读(9112) 评论(0) 推荐(0) 编辑
摘要: collect_set去除重复元素;collect_list不去除重复元素select gender, concat_ws(',', collect_set(children)), concat_ws(',', collect_list(children)) from Affairs group b 阅读全文
posted @ 2016-11-25 17:19 智能先行者 阅读(14334) 评论(0) 推荐(2) 编辑
摘要: 视图,SQL 阅读全文
posted @ 2016-11-25 17:01 智能先行者 阅读(2550) 评论(0) 推荐(0) 编辑
摘要: data.groupBy("gender").agg(count($"age"),max($"age").as("maxAge"), avg($"age").as("avgAge")).show +------+----------+------+------+ |gender|count(age)|m... 阅读全文
posted @ 2016-11-25 16:56 智能先行者 阅读(4604) 评论(0) 推荐(0) 编辑
摘要: DataFrame,数据框,去重,差集,交集 阅读全文
posted @ 2016-11-25 16:20 智能先行者 阅读(16055) 评论(0) 推荐(0) 编辑
摘要: 持久化,存储级别,StorageLevel 阅读全文
posted @ 2016-11-25 15:40 智能先行者 阅读(9377) 评论(0) 推荐(1) 编辑
摘要: DataFrame,数据框,行操作,列操作,物理执行计划,逻辑执行计划 阅读全文
posted @ 2016-11-25 14:21 智能先行者 阅读(16717) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 20 下一页