随笔分类 -  spark

spark学习博客
摘要:《Spark 官方文档》Spark配置 spark-1.6.0 原文地址 Spark配置 Spark有以下三种方式修改配置: Spark properties (Spark属性)可以控制绝大多数应用程序参数,而且既可以通过 SparkConf 对象来设置,也可以通过Java系统属性来设置。 Envi 阅读全文
posted @ 2018-09-05 10:37 一直爬行的蜗牛牛 阅读(21378) 评论(1) 推荐(1)
摘要:1 dataset df1,df2,df3 2 3 //该方法可以执行成功 4 df3= df1.join(df2,"post_id").selectExpr("hostname,request_date,post_id,title,author,name as category".split(",")); //innner join 5 6 acc = df1.withCol... 阅读全文
posted @ 2018-09-03 16:03 一直爬行的蜗牛牛 阅读(5376) 评论(0) 推荐(0)
摘要:1. List 转 Seq: List<String> tmpList = new ArrayList<>(); tmpList.add("abc"); Seq<String> tmpSeq = JavaConverters.asScalaIteratorConverter(tmpList.iter 阅读全文
posted @ 2018-09-03 15:19 一直爬行的蜗牛牛 阅读(523) 评论(0) 推荐(0)
摘要:问题 datafrme提供了强大的JOIN操作,但是在操作的时候,经常发现会碰到重复列的问题。在你不注意的时候,去用相关列做其他操作的时候,就会出现问题! 假如这两个字段同时存在,那么就会报错,如下:org.apache.spark.sql.AnalysisException: Reference 阅读全文
posted @ 2018-08-31 17:38 一直爬行的蜗牛牛 阅读(4142) 评论(0) 推荐(0)
摘要:开源 IP 地址定位库 ip2region 1.4 ip2region 是准确率 99.9% 的 IP 地址定位库,0.0x毫秒级查询,数据库文件大小只有 2.7M,提供了 Java、PHP、C、Python、Node.js、Golang 的查询绑定和 Binary、B树、内存三种查询算法,妈妈再也 阅读全文
posted @ 2018-08-29 11:54 一直爬行的蜗牛牛 阅读(943) 评论(0) 推荐(0)
摘要:测试数据: id,name,age,comment,date 1,lyy,28,"aaa bbb",20180102020325 阅读全文
posted @ 2018-08-28 17:17 一直爬行的蜗牛牛 阅读(4184) 评论(0) 推荐(0)
摘要:可以直接使用org.apache.hadoop.yarn.client.cli.LogsCLI(yarn logs -applicationId)中的main方法逻辑,如 public static void main(String[] args) throws Exception { Config 阅读全文
posted @ 2018-07-04 13:57 一直爬行的蜗牛牛 阅读(1815) 评论(0) 推荐(0)
摘要:在学习Spark过程中,资料中介绍的提交Spark Job的方式主要有两种(我所知道的): 第一种: 通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交,官网和大多数参考资料都是已这种方式提交的,提交命令示例如下:./spark-submit --class com. 阅读全文
posted @ 2018-03-07 15:16 一直爬行的蜗牛牛 阅读(10324) 评论(0) 推荐(0)