Spark 技术 - 随笔分类 - 挪威森林猫Zzz

Spark 读取Hadoop集群文件

摘要：1. 原因: 一般hadoop 集群是两个或多个NameNode , 但是一个处于standby , 另一个active , 通过设置可以忽略不确定谁是active的情况 2. import org.apache.spark.sql.SparkSession object Spark_HDFS { 阅读全文

posted @ 2020-06-24 21:31 挪威森林猫Zzz 阅读(1831) 评论(0) 推荐(0)

Spark 分区

摘要：~ 以下博文 https://www.cnblogs.com/tongxupeng/p/10435976.html hash 分区范围分区阅读全文

posted @ 2020-06-15 23:49 挪威森林猫Zzz 阅读(105) 评论(0) 推荐(0)

Spark 使用 yarn 和主节点提交

摘要：1. 使用yarn 提交 , 在自己定义的yarn 日志服务器上面能看到任务记录 . spark-submit --master yarn --class com.Spark_HDFS ./SXC-1.0-SNAPSHOT.jar 2.使用 Spark的自己的端口提交 spark-submit 阅读全文

posted @ 2020-06-15 03:35 挪威森林猫Zzz 阅读(435) 评论(0) 推荐(0)

idea打包Spark 找不到主类

摘要：1. 用idea的maven项目 package 打包, 去 Linux 执行 spark-submit --class com.Spark_HDFS --master local ./SXC-1.0-SNAPSHOT.jar 遇到找不到主类 , 这时候需要更加稳定的打包方式去打包 scala 阅读全文

posted @ 2020-06-14 11:16 挪威森林猫Zzz 阅读(2260) 评论(0) 推荐(0)

Spark 实现共同好友

摘要：核心代码如下 object Sprk { import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.SparkSession def main(args: Array[String]): Unit = { Logger.g 阅读全文

posted @ 2020-06-11 04:29 挪威森林猫Zzz 阅读(469) 评论(0) 推荐(0)

Spark 获取指定分区内的数据

摘要：K:有什么用? 内存不足可以用. 1.上代码我是1-10分为3个分区 , 并取出下标号为0 的分区的数据 ,然后Type ,要想获得自己想要的分区 , 执行这里返回的是新 RDD , 并且支持 map等操作 , 但是你只能操作一个分区了 . 在某些内存不够用的情况下 , 可以采用这种分阶段操作的阅读全文

posted @ 2020-05-22 20:44 挪威森林猫Zzz 阅读(1796) 评论(0) 推荐(0)

Spark 提交运行保存结果流程控制

摘要：1.Spark 内部已经实现了连接各种数据库和仓库 MySQL HDFS HIVE textFile RDD(数据集) 将 HDFS 基于Spark 得到的计算结果保存至MySQL 也是极其简单的如何将程序更加模块化和可控制 ,我们一般都是运行时加不同参数以达到不同时间 , 不同地点 , 不同需阅读全文

posted @ 2020-05-05 12:20 挪威森林猫Zzz 阅读(306) 评论(0) 推荐(0)

Spark读取txt , 并结构化后执行 SQL操作

摘要：1.准备 idea , 配置好scala ,需要有 Spark sql包 !注意:如果自己Spark能跑 ,就不要复制我的POM了,代码能直接用. 贴一下POM , 我用的是Spark版本是 2.4.3, Spark_core以及sql是2.11 <?xml version="1.0" encodi 阅读全文

posted @ 2019-10-22 21:27 挪威森林猫Zzz 阅读(2161) 评论(0) 推荐(0)

Spark-Java-算子

摘要：package scala.spark.Day3; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkConte 阅读全文

posted @ 2019-10-16 13:08 挪威森林猫Zzz 阅读(486) 评论(0) 推荐(0)

挪威森林猫

花有重开日人无再少年

随笔分类 - Spark 技术

公告

挪威森林猫

花有重开日 人无再少年

随笔分类 - Spark 技术

公告

花有重开日人无再少年