随笔分类 - 2.0--Spark
摘要:所用数据源,请参考本人博客http://www.cnblogs.com/wwxbi/p/6063613.html 1.导入包 2.加载数据源 3.创建决策树模型 4.代码执行结果
阅读全文
摘要:val dfList = List(("Hadoop", "Java,SQL,Hive,HBase,MySQL"), ("Spark", "Scala,SQL,DataSet,MLlib,GraphX")) dfList: List[(String, String)] = List((Hadoop,Java,SQL,Hive,HBase,MySQL), (Spark,Scala,SQL,Data...
阅读全文
摘要:row_number,rank,dense_rank,percent_rank
阅读全文
摘要:val df6 = spark.sql("select gender,children,max(age),avg(age),count(age) from Affairs group by Cube(gender,children) order by 1,2") df6.show +------+--------+--------+--------+----------+ ...
阅读全文
摘要:mean均值,variance方差,stddev标准差,corr(Pearson相关系数),skewness偏度,kurtosis峰度
阅读全文
摘要:collect_set去除重复元素;collect_list不去除重复元素select gender, concat_ws(',', collect_set(children)), concat_ws(',', collect_list(children)) from Affairs group b
阅读全文
摘要:data.groupBy("gender").agg(count($"age"),max($"age").as("maxAge"), avg($"age").as("avgAge")).show +------+----------+------+------+ |gender|count(age)|m...
阅读全文
摘要:DataFrame,数据框,去重,差集,交集
阅读全文
摘要:持久化,存储级别,StorageLevel
阅读全文
摘要:DataFrame,数据框,行操作,列操作,物理执行计划,逻辑执行计划
阅读全文
摘要:2016年11月5日 We are proud to announce that Apache Spark won the 2016 CloudSort Benchmark (both Daytona and Indy category). A joint team from Nanjing Uni
阅读全文
摘要:退出spark,释放资源
阅读全文
摘要:Accumulator.scala (Since version 2.0.0) use AccumulatorV2 import org.apache.spark.util._ val accum=new DoubleAccumulator() Array(1, 2, 3, 4).foreach(x
阅读全文
摘要:A broadcast variable. Broadcast variables allow the programmer to keep a read-only variable cached on each machine rather than shipping a copy of it w
阅读全文
摘要:1.数据字段解释 affairs:一年来婚外情的频率 gender:性别 age:年龄 yearsmarried:婚龄 children:是否有小孩 religiousness:宗教信仰程度(5分制,1分表示反对,5分表示非常信仰) education:学历 occupation:职业(逆向编号的戈
阅读全文
摘要:回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多重共线性情况下运行良好。 数学上,ElasticNet被定义为L1和L2正则化项的凸组合: 通过适当设置α,ElasticNet包含L1和L2正则化作为特殊情况。例如,如果用参数α设置为1来训练线性回归模型,则其等
阅读全文
摘要:Spark2,oneHot编码,标准化,主成分,聚类
阅读全文
摘要:hadoop fs -put /home/wangxiao/data/ml/Affairs.csv /datafile/wangxiao/ hadoop fs -ls -R /datafiledrwxr-xr-x - wangxiao supergroup 0 2016-10-15 10:46 /d
阅读全文
摘要:Spark2,DataFrame,数据框,空值NaN判断,空值NaN处理
阅读全文

浙公网安备 33010602011771号