2.0--Spark - 随笔分类(第2页) - 智能先行者

Spark2 ML包之决策树分类Decision tree classifier详细解说

摘要：所用数据源，请参考本人博客http://www.cnblogs.com/wwxbi/p/6063613.html 1.导入包 2.加载数据源 3.创建决策树模型 4.代码执行结果阅读全文

posted @ 2016-11-29 16:14 智能先行者阅读(3250) 评论(1) 推荐(0)

摘要：val dfList = List(("Hadoop", "Java,SQL,Hive,HBase,MySQL"), ("Spark", "Scala,SQL,DataSet,MLlib,GraphX")) dfList: List[(String, String)] = List((Hadoop,Java,SQL,Hive,HBase,MySQL), (Spark,Scala,SQL,Data... 阅读全文

posted @ 2016-11-28 19:05 智能先行者阅读(6706) 评论(0) 推荐(1)

Spark2 Dataset分析函数--排名函数row_number,rank,dense_rank,percent_rank

摘要：row_number,rank,dense_rank,percent_rank 阅读全文

posted @ 2016-11-25 18:34 智能先行者阅读(8084) 评论(0) 推荐(0)

Spark2 Dataset多维度统计cube与rollup

摘要：val df6 = spark.sql("select gender,children,max(age),avg(age),count(age) from Affairs group by Cube(gender,children) order by 1,2") df6.show +------+--------+--------+--------+----------+ ... 阅读全文

posted @ 2016-11-25 18:23 智能先行者阅读(3328) 评论(1) 推荐(0)

Spark2 Dataset统计指标：mean均值，variance方差，stddev标准差，corr(Pearson相关系数)，skewness偏度，kurtosis峰度

摘要：mean均值，variance方差，stddev标准差，corr(Pearson相关系数)，skewness偏度，kurtosis峰度阅读全文

posted @ 2016-11-25 17:55 智能先行者阅读(9422) 评论(0) 推荐(0)

Spark2 Dataset之collect_set与collect_list

摘要：collect_set去除重复元素；collect_list不去除重复元素select gender, concat_ws(',', collect_set(children)), concat_ws(',', collect_list(children)) from Affairs group b 阅读全文

posted @ 2016-11-25 17:19 智能先行者阅读(14463) 评论(0) 推荐(2)

Spark2 Dataset之视图与SQL

摘要：视图，SQL 阅读全文

posted @ 2016-11-25 17:01 智能先行者阅读(2602) 评论(0) 推荐(0)

Spark2 Dataset聚合操作

摘要：data.groupBy("gender").agg(count($"age"),max($"age").as("maxAge"), avg($"age").as("avgAge")).show +------+----------+------+------+ |gender|count(age)|m... 阅读全文

posted @ 2016-11-25 16:56 智能先行者阅读(4616) 评论(0) 推荐(0)

Spark2 Dataset去重、差集、交集

摘要：DataFrame，数据框，去重，差集，交集阅读全文

posted @ 2016-11-25 16:20 智能先行者阅读(16146) 评论(0) 推荐(0)

Spark2 Dataset持久化存储级别StorageLevel

摘要：持久化，存储级别，StorageLevel 阅读全文

posted @ 2016-11-25 15:40 智能先行者阅读(9524) 评论(0) 推荐(1)

Spark2 Dataset行列操作和执行计划

摘要：DataFrame，数据框，行操作，列操作，物理执行计划，逻辑执行计划阅读全文

posted @ 2016-11-25 14:21 智能先行者阅读(16756) 评论(0) 推荐(0)

Spark版本发布历史，及其各版本特性

摘要：2016年11月5日 We are proud to announce that Apache Spark won the 2016 CloudSort Benchmark (both Daytona and Indy category). A joint team from Nanjing Uni 阅读全文

posted @ 2016-11-21 10:48 智能先行者阅读(1795) 评论(0) 推荐(0)

Spark2 jar包运行完成，退出spark，释放资源

摘要：退出spark，释放资源阅读全文

posted @ 2016-11-18 14:08 智能先行者阅读(2624) 评论(0) 推荐(0)

Spark2 AccumulatorV2累加器

摘要：Accumulator.scala (Since version 2.0.0) use AccumulatorV2 import org.apache.spark.util._ val accum=new DoubleAccumulator() Array(1, 2, 3, 4).foreach(x 阅读全文

posted @ 2016-11-15 21:19 智能先行者阅读(2413) 评论(0) 推荐(0)

Spark2 broadcast广播变量

摘要：A broadcast variable. Broadcast variables allow the programmer to keep a read-only variable cached on each machine rather than shipping a copy of it w 阅读全文

posted @ 2016-11-14 22:52 智能先行者阅读(5313) 评论(1) 推荐(0)

Spark ML包，数据挖掘示例数据Affairs

摘要：1.数据字段解释 affairs：一年来婚外情的频率 gender：性别 age：年龄 yearsmarried：婚龄 children：是否有小孩 religiousness：宗教信仰程度（5分制，1分表示反对，5分表示非常信仰） education：学历 occupation：职业（逆向编号的戈阅读全文

posted @ 2016-11-14 21:53 智能先行者阅读(2738) 评论(0) 推荐(0)

Spark2 Linear Regression线性回归

摘要：回归正则化方法（Lasso，Ridge和ElasticNet）在高维和数据集变量之间多重共线性情况下运行良好。数学上，ElasticNet被定义为L1和L2正则化项的凸组合：通过适当设置α，ElasticNet包含L1和L2正则化作为特殊情况。例如，如果用参数α设置为1来训练线性回归模型，则其等阅读全文

posted @ 2016-11-03 21:23 智能先行者阅读(7039) 评论(0) 推荐(0)

Spark2 oneHot编码--标准化--主成分--聚类

摘要：Spark2，oneHot编码，标准化，主成分，聚类阅读全文

posted @ 2016-11-03 20:59 智能先行者阅读(5241) 评论(3) 推荐(0)

Spark2 加载保存文件，数据文件转换成数据框dataframe

摘要：hadoop fs -put /home/wangxiao/data/ml/Affairs.csv /datafile/wangxiao/ hadoop fs -ls -R /datafiledrwxr-xr-x - wangxiao supergroup 0 2016-10-15 10:46 /d 阅读全文

posted @ 2016-10-30 22:31 智能先行者阅读(8654) 评论(0) 推荐(0)

Spark2 Dataset DataFrame空值null,NaN判断和处理

摘要：Spark2，DataFrame，数据框，空值NaN判断，空值NaN处理阅读全文

posted @ 2016-10-29 17:44 智能先行者阅读(47149) 评论(0) 推荐(4)

智能先行者

随笔分类 - 2.0--Spark

公告