随笔分类 -  大数据-Spark

摘要:val df = spark.read.json("/spark2x/xxx")df.printSchemadf.select("Event").groupBy("Event").count.show(20,false)df.createOrReplaceTempView("t1")sql("sel 阅读全文
posted @ 2021-05-07 20:14 七彩木兰 阅读(163) 评论(0) 推荐(0)
摘要:我国实行夏令时的时间: 1986年至1991年,每年4月中旬的第一个星期日1时起至9月中旬的第一个星期日1时止。 1986年4月13日至9月14日, 1987年4月12日至9月13日, 1988年4月10日至9月11日, 1989年4月16日至9月17日, 1990年4月15日至9月16日, 199 阅读全文
posted @ 2021-04-30 14:11 七彩木兰 阅读(1938) 评论(0) 推荐(0)
摘要:1 快速入门 官方快速入门文档:https://spark.apache.org/docs/3.1.1/quick-start.html Spark教程 https://www.yiibai.com/spark/apache-spark-filter-function.html 2 Spark原理 阅读全文
posted @ 2021-04-28 19:56 七彩木兰 阅读(211) 评论(0) 推荐(0)
摘要:Yarn Spark ResourceManager(RM 资源管理器) Mater 管理子节点,资源调度,接受任务请求 NodeManager (NM 节点管理器) Worker 负责管理本节点的资源,并管理子进程,启动Driver和Executor Container 容器 Executor 运 阅读全文
posted @ 2021-04-25 09:32 七彩木兰 阅读(172) 评论(0) 推荐(0)
摘要:1、改成本地模式 . val conf = new SparkConf().setAppName("ScalaWordCount").setMaster("local") 2、编写入参 传参 阅读全文
posted @ 2021-04-23 20:17 七彩木兰 阅读(237) 评论(0) 推荐(0)
摘要:1 软件准备 注意:以下是针对Windows 7 64bit的开发环境搭建 软件名称 描述 下载地址 版本 软件安装包 JDK JAVA 开发工具包 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133 阅读全文
posted @ 2021-04-23 20:10 七彩木兰 阅读(162) 评论(0) 推荐(0)
摘要:1、idea中新建一个Maven项目 自定义名称 2、编辑pom文件,包括spark、scala、hadoop等properties版本信息、dependencies依赖、和plugins 插件信息 <?xml version="1.0" encoding="UTF-8"?> <project xm 阅读全文
posted @ 2021-04-23 19:35 七彩木兰 阅读(512) 评论(2) 推荐(0)
摘要:连接spark-shell 指定行数生成数据 scala>spark.range(50000000L).selectExpr("id % 10000 as a","id % 10000 as b").write.saveAsTable("t1") scala>spark.range(40000000 阅读全文
posted @ 2021-04-20 15:18 七彩木兰 阅读(308) 评论(0) 推荐(0)