随笔分类 -  2.0--Spark

摘要:所用数据源,请参考本人博客http://www.cnblogs.com/wwxbi/p/6063613.html 1.导入包 2.加载数据源 3.创建决策树模型 4.代码执行结果 阅读全文
posted @ 2016-11-29 16:14 智能先行者 阅读(3245) 评论(1) 推荐(0)
摘要:val dfList = List(("Hadoop", "Java,SQL,Hive,HBase,MySQL"), ("Spark", "Scala,SQL,DataSet,MLlib,GraphX")) dfList: List[(String, String)] = List((Hadoop,Java,SQL,Hive,HBase,MySQL), (Spark,Scala,SQL,Data... 阅读全文
posted @ 2016-11-28 19:05 智能先行者 阅读(6703) 评论(0) 推荐(1)
摘要:row_number,rank,dense_rank,percent_rank 阅读全文
posted @ 2016-11-25 18:34 智能先行者 阅读(8077) 评论(0) 推荐(0)
摘要:val df6 = spark.sql("select gender,children,max(age),avg(age),count(age) from Affairs group by Cube(gender,children) order by 1,2") df6.show +------+--------+--------+--------+----------+ ... 阅读全文
posted @ 2016-11-25 18:23 智能先行者 阅读(3327) 评论(1) 推荐(0)
摘要:mean均值,variance方差,stddev标准差,corr(Pearson相关系数),skewness偏度,kurtosis峰度 阅读全文
posted @ 2016-11-25 17:55 智能先行者 阅读(9416) 评论(0) 推荐(0)
摘要:collect_set去除重复元素;collect_list不去除重复元素select gender, concat_ws(',', collect_set(children)), concat_ws(',', collect_list(children)) from Affairs group b 阅读全文
posted @ 2016-11-25 17:19 智能先行者 阅读(14452) 评论(0) 推荐(2)
摘要:视图,SQL 阅读全文
posted @ 2016-11-25 17:01 智能先行者 阅读(2599) 评论(0) 推荐(0)
摘要:data.groupBy("gender").agg(count($"age"),max($"age").as("maxAge"), avg($"age").as("avgAge")).show +------+----------+------+------+ |gender|count(age)|m... 阅读全文
posted @ 2016-11-25 16:56 智能先行者 阅读(4615) 评论(0) 推荐(0)
摘要:DataFrame,数据框,去重,差集,交集 阅读全文
posted @ 2016-11-25 16:20 智能先行者 阅读(16123) 评论(0) 推荐(0)
摘要:持久化,存储级别,StorageLevel 阅读全文
posted @ 2016-11-25 15:40 智能先行者 阅读(9518) 评论(0) 推荐(1)
摘要:DataFrame,数据框,行操作,列操作,物理执行计划,逻辑执行计划 阅读全文
posted @ 2016-11-25 14:21 智能先行者 阅读(16755) 评论(0) 推荐(0)
摘要:2016年11月5日 We are proud to announce that Apache Spark won the 2016 CloudSort Benchmark (both Daytona and Indy category). A joint team from Nanjing Uni 阅读全文
posted @ 2016-11-21 10:48 智能先行者 阅读(1787) 评论(0) 推荐(0)
摘要:退出spark,释放资源 阅读全文
posted @ 2016-11-18 14:08 智能先行者 阅读(2622) 评论(0) 推荐(0)
摘要:Accumulator.scala (Since version 2.0.0) use AccumulatorV2 import org.apache.spark.util._ val accum=new DoubleAccumulator() Array(1, 2, 3, 4).foreach(x 阅读全文
posted @ 2016-11-15 21:19 智能先行者 阅读(2410) 评论(0) 推荐(0)
摘要:A broadcast variable. Broadcast variables allow the programmer to keep a read-only variable cached on each machine rather than shipping a copy of it w 阅读全文
posted @ 2016-11-14 22:52 智能先行者 阅读(5311) 评论(1) 推荐(0)
摘要:1.数据字段解释 affairs:一年来婚外情的频率 gender:性别 age:年龄 yearsmarried:婚龄 children:是否有小孩 religiousness:宗教信仰程度(5分制,1分表示反对,5分表示非常信仰) education:学历 occupation:职业(逆向编号的戈 阅读全文
posted @ 2016-11-14 21:53 智能先行者 阅读(2736) 评论(0) 推荐(0)
摘要:回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多重共线性情况下运行良好。 数学上,ElasticNet被定义为L1和L2正则化项的凸组合: 通过适当设置α,ElasticNet包含L1和L2正则化作为特殊情况。例如,如果用参数α设置为1来训练线性回归模型,则其等 阅读全文
posted @ 2016-11-03 21:23 智能先行者 阅读(7027) 评论(0) 推荐(0)
摘要:Spark2,oneHot编码,标准化,主成分,聚类 阅读全文
posted @ 2016-11-03 20:59 智能先行者 阅读(5225) 评论(3) 推荐(0)
摘要:hadoop fs -put /home/wangxiao/data/ml/Affairs.csv /datafile/wangxiao/ hadoop fs -ls -R /datafiledrwxr-xr-x - wangxiao supergroup 0 2016-10-15 10:46 /d 阅读全文
posted @ 2016-10-30 22:31 智能先行者 阅读(8652) 评论(0) 推荐(0)
摘要:Spark2,DataFrame,数据框,空值NaN判断,空值NaN处理 阅读全文
posted @ 2016-10-29 17:44 智能先行者 阅读(47143) 评论(0) 推荐(4)