2016 年 11月随笔档案 - 智能先行者

Scala日期处理

摘要：计算时间间隔产生日期序列执行结果阅读全文

posted @ 2016-11-30 10:15 智能先行者阅读(4277) 评论(0) 推荐(0)

Spark2 SQL configuration参数配置

摘要：查看当前环境SQL参数的配置阅读全文

posted @ 2016-11-29 17:17 智能先行者阅读(5923) 评论(0) 推荐(0)

Spark2 ML包之决策树分类Decision tree classifier详细解说

摘要：所用数据源，请参考本人博客http://www.cnblogs.com/wwxbi/p/6063613.html 1.导入包 2.加载数据源 3.创建决策树模型 4.代码执行结果阅读全文

posted @ 2016-11-29 16:14 智能先行者阅读(3249) 评论(1) 推荐(0)

Spark2 DataSet 创建新行之flatMap

摘要：val dfList = List(("Hadoop", "Java,SQL,Hive,HBase,MySQL"), ("Spark", "Scala,SQL,DataSet,MLlib,GraphX")) dfList: List[(String, String)] = List((Hadoop,Java,SQL,Hive,HBase,MySQL), (Spark,Scala,SQL,Data... 阅读全文

posted @ 2016-11-28 19:05 智能先行者阅读(6706) 评论(0) 推荐(1)

Spark2 Dataset分析函数--排名函数row_number,rank,dense_rank,percent_rank

摘要：row_number,rank,dense_rank,percent_rank 阅读全文

posted @ 2016-11-25 18:34 智能先行者阅读(8084) 评论(0) 推荐(0)

Spark2 Dataset多维度统计cube与rollup

摘要：val df6 = spark.sql("select gender,children,max(age),avg(age),count(age) from Affairs group by Cube(gender,children) order by 1,2") df6.show +------+--------+--------+--------+----------+ ... 阅读全文

posted @ 2016-11-25 18:23 智能先行者阅读(3328) 评论(1) 推荐(0)

Spark2 Dataset统计指标：mean均值，variance方差，stddev标准差，corr(Pearson相关系数)，skewness偏度，kurtosis峰度

摘要：mean均值，variance方差，stddev标准差，corr(Pearson相关系数)，skewness偏度，kurtosis峰度阅读全文

posted @ 2016-11-25 17:55 智能先行者阅读(9421) 评论(0) 推荐(0)

Spark2 Dataset之collect_set与collect_list

摘要：collect_set去除重复元素；collect_list不去除重复元素select gender, concat_ws(',', collect_set(children)), concat_ws(',', collect_list(children)) from Affairs group b 阅读全文

posted @ 2016-11-25 17:19 智能先行者阅读(14462) 评论(0) 推荐(2)

Spark2 Dataset之视图与SQL

摘要：视图，SQL 阅读全文

posted @ 2016-11-25 17:01 智能先行者阅读(2602) 评论(0) 推荐(0)

Spark2 Dataset聚合操作

摘要：data.groupBy("gender").agg(count($"age"),max($"age").as("maxAge"), avg($"age").as("avgAge")).show +------+----------+------+------+ |gender|count(age)|m... 阅读全文

posted @ 2016-11-25 16:56 智能先行者阅读(4616) 评论(0) 推荐(0)

Spark2 Dataset去重、差集、交集

摘要：DataFrame，数据框，去重，差集，交集阅读全文

posted @ 2016-11-25 16:20 智能先行者阅读(16146) 评论(0) 推荐(0)

Spark2 Dataset持久化存储级别StorageLevel

摘要：持久化，存储级别，StorageLevel 阅读全文

posted @ 2016-11-25 15:40 智能先行者阅读(9524) 评论(0) 推荐(1)

Spark2 Dataset行列操作和执行计划

摘要：DataFrame，数据框，行操作，列操作，物理执行计划，逻辑执行计划阅读全文

posted @ 2016-11-25 14:21 智能先行者阅读(16756) 评论(0) 推荐(0)

R因子

摘要：factor(x = character(), levels, labels = levels, exclude = NA, ordered = is.ordered(x), nmax = NA) levels因子水平，如果不指定，就是x中所有不重复的值 labels水平标识名称 exclude排除阅读全文

posted @ 2016-11-21 22:46 智能先行者阅读(547) 评论(0) 推荐(0)

R缺失数据处理

摘要：> open<-c(2529,2468,2417,NA) > high<-c(2529,2483,2419,2419) > SSEC<-data.frame(open=open,high=high) > SSEC open high 1 2529 2529 2 2468 2483 3 2417 24 阅读全文

posted @ 2016-11-21 22:44 智能先行者阅读(249) 评论(0) 推荐(0)

R排序sort、order、rank、arrange

摘要：Ø sort sort(x, decreasing = FALSE, ...) ## Default S3 method: sort(x, decreasing = FALSE, na.last = NA, ...) sort.int(x, partial = NULL, na.last = NA, 阅读全文

posted @ 2016-11-21 22:43 智能先行者阅读(7761) 评论(0) 推荐(0)

R的transform

摘要：函数transform 作用:为原数据框添加新的列，改变原变量列的值，通过赋值NULL删除列变量用法: transform(‘data’,….) data就是要修改的data, '…..'代表你要进行的修改 1:transform(airquality, new.col = Wind^2) #添加阅读全文

posted @ 2016-11-21 22:40 智能先行者阅读(1512) 评论(0) 推荐(0)

R序列seq

摘要：> seq(from=10,to=20,by=3) [1] 10 13 16 19 > seq(from=10,to=20,length=5) [1] 10.0 12.5 15.0 17.5 20.0 ## Default S3 method: seq(from = 1, to = 1, by = 阅读全文

posted @ 2016-11-21 22:38 智能先行者阅读(636) 评论(0) 推荐(0)

R子集subset

摘要：> x<-c(6,1,2,3,NA,12) > x[x>5] #x[5]是未知的，因此其值是否大于5也是未知的 [1] 6 NA 12 > subset(x,x>5) #subset直接会把NA移除 [1] 6 12 > subset(airquality, Temp > 80, select = 阅读全文

posted @ 2016-11-21 22:34 智能先行者阅读(8417) 评论(0) 推荐(0)

R的any和all

摘要：> x<-1:10 > any(x>8) [1] TRUE > all(x>8) [1] FALSE 阅读全文

posted @ 2016-11-21 22:32 智能先行者阅读(316) 评论(0) 推荐(0)

Spark版本发布历史，及其各版本特性

摘要：2016年11月5日 We are proud to announce that Apache Spark won the 2016 CloudSort Benchmark (both Daytona and Indy category). A joint team from Nanjing Uni 阅读全文

posted @ 2016-11-21 10:48 智能先行者阅读(1794) 评论(0) 推荐(0)

Spark2 jar包运行完成，退出spark，释放资源

摘要：退出spark，释放资源阅读全文

posted @ 2016-11-18 14:08 智能先行者阅读(2624) 评论(0) 推荐(0)

Linux awk

摘要：1.1 awk脚本基本结构 awk 'BEGIN{ print "start" } pattern{ commands } END{ print "end" }' fileawk 'BEGIN{ i=0 } { i++ } END{ print i }' filename awk -F ',' '{ 阅读全文

posted @ 2016-11-18 09:38 智能先行者阅读(183) 评论(0) 推荐(0)

Linux wc

摘要：命令参数： -c 统计字节数。 -l 统计行数。 -m 统计字符数。这个标志不能与 -c 标志一起使用。 -w 统计字数。一个字被定义为由空白、跳格或换行字符分隔的字符串。 -L 打印最长行的长度。 -help 显示帮助信息 --version 显示版本信息阅读全文

posted @ 2016-11-18 09:36 智能先行者阅读(467) 评论(0) 推荐(0)

Linux find

摘要：可以递归查找目录下的文件，通过遍历硬盘来查找用.来表示当前目录，用/来表示系统根目录命令选项： -name 按照文件名查找文件。 -perm 按照文件权限来查找文件。 -prune 使用这一选项可以使find命令不在当前指定的目录中查找，如果同时使用-depth选项，那么-prune将被find 阅读全文

posted @ 2016-11-18 09:35 智能先行者阅读(2689) 评论(0) 推荐(0)

Linux rm

摘要：命令参数 -f, --force 忽略不存在的文件，从不给出提示。 -i, --interactive 进行交互式删除 -r, -R, --recursive 指示rm将参数中列出的全部目录和子目录均递归地删除。 -v, --verbose 详细显示进行的步骤 $ rm -rfv CV1.txt r 阅读全文

posted @ 2016-11-18 09:34 智能先行者阅读(330) 评论(0) 推荐(0)

Linux mkdir

摘要：命令参数 -m, --mode=模式，设定权限<模式> (类似 chmod) -p, --parents 可以是一个路径名称。此时若路径中的某些目录尚不存在,加上此选项后,系统将自动建立好那些尚不存在的目录,即一次可以建立多个目录; -v, --verbose 每次创建新目录都显示信息创建权限为7 阅读全文

posted @ 2016-11-18 09:32 智能先行者阅读(195) 评论(0) 推荐(0)

Linux mv

摘要：命令格式： mv [选项] 源文件或目录目标文件或目录命令参数： -b ：若需覆盖文件，则覆盖前先行备份。 -f ：force 强制的意思，如果目标文件已经存在，不会询问而直接覆盖； -i ：若目标文件 (destination) 已经存在时，就会询问是否覆盖！ -u ：若目标文件已经存在，且阅读全文

posted @ 2016-11-18 09:24 智能先行者阅读(176) 评论(0) 推荐(0)

Spark2 AccumulatorV2累加器

摘要：Accumulator.scala (Since version 2.0.0) use AccumulatorV2 import org.apache.spark.util._ val accum=new DoubleAccumulator() Array(1, 2, 3, 4).foreach(x 阅读全文

posted @ 2016-11-15 21:19 智能先行者阅读(2412) 评论(0) 推荐(0)

Spark2 broadcast广播变量

摘要：A broadcast variable. Broadcast variables allow the programmer to keep a read-only variable cached on each machine rather than shipping a copy of it w 阅读全文

posted @ 2016-11-14 22:52 智能先行者阅读(5313) 评论(1) 推荐(0)

Spark ML包，数据挖掘示例数据Affairs

摘要：1.数据字段解释 affairs：一年来婚外情的频率 gender：性别 age：年龄 yearsmarried：婚龄 children：是否有小孩 religiousness：宗教信仰程度（5分制，1分表示反对，5分表示非常信仰） education：学历 occupation：职业（逆向编号的戈阅读全文

posted @ 2016-11-14 21:53 智能先行者阅读(2738) 评论(0) 推荐(0)

Spark2 Linear Regression线性回归

摘要：回归正则化方法（Lasso，Ridge和ElasticNet）在高维和数据集变量之间多重共线性情况下运行良好。数学上，ElasticNet被定义为L1和L2正则化项的凸组合：通过适当设置α，ElasticNet包含L1和L2正则化作为特殊情况。例如，如果用参数α设置为1来训练线性回归模型，则其等阅读全文

posted @ 2016-11-03 21:23 智能先行者阅读(7038) 评论(0) 推荐(0)

Spark2 oneHot编码--标准化--主成分--聚类

摘要：Spark2，oneHot编码，标准化，主成分，聚类阅读全文

posted @ 2016-11-03 20:59 智能先行者阅读(5240) 评论(3) 推荐(0)

智能先行者

11 2016 档案

公告