11 2016 档案

摘要:计算时间间隔 产生日期序列 执行结果 阅读全文
posted @ 2016-11-30 10:15 智能先行者 阅读(4273) 评论(0) 推荐(0)
摘要:查看当前环境SQL参数的配置 阅读全文
posted @ 2016-11-29 17:17 智能先行者 阅读(5911) 评论(0) 推荐(0)
摘要:所用数据源,请参考本人博客http://www.cnblogs.com/wwxbi/p/6063613.html 1.导入包 2.加载数据源 3.创建决策树模型 4.代码执行结果 阅读全文
posted @ 2016-11-29 16:14 智能先行者 阅读(3244) 评论(1) 推荐(0)
摘要:val dfList = List(("Hadoop", "Java,SQL,Hive,HBase,MySQL"), ("Spark", "Scala,SQL,DataSet,MLlib,GraphX")) dfList: List[(String, String)] = List((Hadoop,Java,SQL,Hive,HBase,MySQL), (Spark,Scala,SQL,Data... 阅读全文
posted @ 2016-11-28 19:05 智能先行者 阅读(6701) 评论(0) 推荐(1)
摘要:row_number,rank,dense_rank,percent_rank 阅读全文
posted @ 2016-11-25 18:34 智能先行者 阅读(8075) 评论(0) 推荐(0)
摘要:val df6 = spark.sql("select gender,children,max(age),avg(age),count(age) from Affairs group by Cube(gender,children) order by 1,2") df6.show +------+--------+--------+--------+----------+ ... 阅读全文
posted @ 2016-11-25 18:23 智能先行者 阅读(3324) 评论(1) 推荐(0)
摘要:mean均值,variance方差,stddev标准差,corr(Pearson相关系数),skewness偏度,kurtosis峰度 阅读全文
posted @ 2016-11-25 17:55 智能先行者 阅读(9411) 评论(0) 推荐(0)
摘要:collect_set去除重复元素;collect_list不去除重复元素select gender, concat_ws(',', collect_set(children)), concat_ws(',', collect_list(children)) from Affairs group b 阅读全文
posted @ 2016-11-25 17:19 智能先行者 阅读(14452) 评论(0) 推荐(2)
摘要:视图,SQL 阅读全文
posted @ 2016-11-25 17:01 智能先行者 阅读(2597) 评论(0) 推荐(0)
摘要:data.groupBy("gender").agg(count($"age"),max($"age").as("maxAge"), avg($"age").as("avgAge")).show +------+----------+------+------+ |gender|count(age)|m... 阅读全文
posted @ 2016-11-25 16:56 智能先行者 阅读(4612) 评论(0) 推荐(0)
摘要:DataFrame,数据框,去重,差集,交集 阅读全文
posted @ 2016-11-25 16:20 智能先行者 阅读(16123) 评论(0) 推荐(0)
摘要:持久化,存储级别,StorageLevel 阅读全文
posted @ 2016-11-25 15:40 智能先行者 阅读(9517) 评论(0) 推荐(1)
摘要:DataFrame,数据框,行操作,列操作,物理执行计划,逻辑执行计划 阅读全文
posted @ 2016-11-25 14:21 智能先行者 阅读(16753) 评论(0) 推荐(0)
摘要:factor(x = character(), levels, labels = levels, exclude = NA, ordered = is.ordered(x), nmax = NA) levels因子水平,如果不指定,就是x中所有不重复的值 labels水平标识名称 exclude排除 阅读全文
posted @ 2016-11-21 22:46 智能先行者 阅读(544) 评论(0) 推荐(0)
摘要:> open<-c(2529,2468,2417,NA) > high<-c(2529,2483,2419,2419) > SSEC<-data.frame(open=open,high=high) > SSEC open high 1 2529 2529 2 2468 2483 3 2417 24 阅读全文
posted @ 2016-11-21 22:44 智能先行者 阅读(247) 评论(0) 推荐(0)
摘要:Ø sort sort(x, decreasing = FALSE, ...) ## Default S3 method: sort(x, decreasing = FALSE, na.last = NA, ...) sort.int(x, partial = NULL, na.last = NA, 阅读全文
posted @ 2016-11-21 22:43 智能先行者 阅读(7753) 评论(0) 推荐(0)
摘要:函数transform 作用:为原数据框添加新的列,改变原变量列的值,通过赋值NULL删除列变量 用法: transform(‘data’,….) data就是要修改的data, '…..'代表你要进行的修改 1:transform(airquality, new.col = Wind^2) #添加 阅读全文
posted @ 2016-11-21 22:40 智能先行者 阅读(1508) 评论(0) 推荐(0)
摘要:> seq(from=10,to=20,by=3) [1] 10 13 16 19 > seq(from=10,to=20,length=5) [1] 10.0 12.5 15.0 17.5 20.0 ## Default S3 method: seq(from = 1, to = 1, by = 阅读全文
posted @ 2016-11-21 22:38 智能先行者 阅读(627) 评论(0) 推荐(0)
摘要:> x<-c(6,1,2,3,NA,12) > x[x>5] #x[5]是未知的,因此其值是否大于5也是未知的 [1] 6 NA 12 > subset(x,x>5) #subset直接会把NA移除 [1] 6 12 > subset(airquality, Temp > 80, select = 阅读全文
posted @ 2016-11-21 22:34 智能先行者 阅读(8401) 评论(0) 推荐(0)
摘要:> x<-1:10 > any(x>8) [1] TRUE > all(x>8) [1] FALSE 阅读全文
posted @ 2016-11-21 22:32 智能先行者 阅读(311) 评论(0) 推荐(0)
摘要:2016年11月5日 We are proud to announce that Apache Spark won the 2016 CloudSort Benchmark (both Daytona and Indy category). A joint team from Nanjing Uni 阅读全文
posted @ 2016-11-21 10:48 智能先行者 阅读(1780) 评论(0) 推荐(0)
摘要:退出spark,释放资源 阅读全文
posted @ 2016-11-18 14:08 智能先行者 阅读(2621) 评论(0) 推荐(0)
摘要:1.1 awk脚本基本结构 awk 'BEGIN{ print "start" } pattern{ commands } END{ print "end" }' fileawk 'BEGIN{ i=0 } { i++ } END{ print i }' filename awk -F ',' '{ 阅读全文
posted @ 2016-11-18 09:38 智能先行者 阅读(180) 评论(0) 推荐(0)
摘要:命令参数: -c 统计字节数。 -l 统计行数。 -m 统计字符数。这个标志不能与 -c 标志一起使用。 -w 统计字数。一个字被定义为由空白、跳格或换行字符分隔的字符串。 -L 打印最长行的长度。 -help 显示帮助信息 --version 显示版本信息 阅读全文
posted @ 2016-11-18 09:36 智能先行者 阅读(464) 评论(0) 推荐(0)
摘要:可以递归查找目录下的文件,通过遍历硬盘来查找 用.来表示当前目录,用/来表示系统根目录 命令选项: -name 按照文件名查找文件。 -perm 按照文件权限来查找文件。 -prune 使用这一选项可以使find命令不在当前指定的目录中查找,如果同时使用-depth选项,那么-prune将被find 阅读全文
posted @ 2016-11-18 09:35 智能先行者 阅读(2687) 评论(0) 推荐(0)
摘要:命令参数 -f, --force 忽略不存在的文件,从不给出提示。 -i, --interactive 进行交互式删除 -r, -R, --recursive 指示rm将参数中列出的全部目录和子目录均递归地删除。 -v, --verbose 详细显示进行的步骤 $ rm -rfv CV1.txt r 阅读全文
posted @ 2016-11-18 09:34 智能先行者 阅读(326) 评论(0) 推荐(0)
摘要:命令参数 -m, --mode=模式,设定权限<模式> (类似 chmod) -p, --parents 可以是一个路径名称。此时若路径中的某些目录尚不存在,加上此选项后,系统将自动建立好那些尚不存在的目录,即一次可以建立多个目录; -v, --verbose 每次创建新目录都显示信息 创建权限为7 阅读全文
posted @ 2016-11-18 09:32 智能先行者 阅读(192) 评论(0) 推荐(0)
摘要:命令格式: mv [选项] 源文件或目录 目标文件或目录 命令参数: -b :若需覆盖文件,则覆盖前先行备份。 -f :force 强制的意思,如果目标文件已经存在,不会询问而直接覆盖; -i :若目标文件 (destination) 已经存在时,就会询问是否覆盖! -u :若目标文件已经存在,且 阅读全文
posted @ 2016-11-18 09:24 智能先行者 阅读(173) 评论(0) 推荐(0)
摘要:Accumulator.scala (Since version 2.0.0) use AccumulatorV2 import org.apache.spark.util._ val accum=new DoubleAccumulator() Array(1, 2, 3, 4).foreach(x 阅读全文
posted @ 2016-11-15 21:19 智能先行者 阅读(2410) 评论(0) 推荐(0)
摘要:A broadcast variable. Broadcast variables allow the programmer to keep a read-only variable cached on each machine rather than shipping a copy of it w 阅读全文
posted @ 2016-11-14 22:52 智能先行者 阅读(5311) 评论(1) 推荐(0)
摘要:1.数据字段解释 affairs:一年来婚外情的频率 gender:性别 age:年龄 yearsmarried:婚龄 children:是否有小孩 religiousness:宗教信仰程度(5分制,1分表示反对,5分表示非常信仰) education:学历 occupation:职业(逆向编号的戈 阅读全文
posted @ 2016-11-14 21:53 智能先行者 阅读(2733) 评论(0) 推荐(0)
摘要:回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多重共线性情况下运行良好。 数学上,ElasticNet被定义为L1和L2正则化项的凸组合: 通过适当设置α,ElasticNet包含L1和L2正则化作为特殊情况。例如,如果用参数α设置为1来训练线性回归模型,则其等 阅读全文
posted @ 2016-11-03 21:23 智能先行者 阅读(7025) 评论(0) 推荐(0)
摘要:Spark2,oneHot编码,标准化,主成分,聚类 阅读全文
posted @ 2016-11-03 20:59 智能先行者 阅读(5224) 评论(3) 推荐(0)