随笔分类 - Spark 技术
一些关于Spark的好的编程思想
摘要:1. 原因: 一般hadoop 集群是两个或多个NameNode , 但是一个处于standby , 另一个active , 通过设置可以忽略不确定谁是active的情况 2. import org.apache.spark.sql.SparkSession object Spark_HDFS {
阅读全文
摘要:~ 以下博文 https://www.cnblogs.com/tongxupeng/p/10435976.html hash 分区 范围分区
阅读全文
摘要:1. 使用yarn 提交 , 在 自己定义的yarn 日志服务器上面能看到任务记录 . spark-submit --master yarn --class com.Spark_HDFS ./SXC-1.0-SNAPSHOT.jar 2.使用 Spark的 自己的端口提交 spark-submit
阅读全文
摘要:1. 用idea的maven项目 package 打包, 去 Linux 执行 spark-submit --class com.Spark_HDFS --master local ./SXC-1.0-SNAPSHOT.jar 遇到 找不到主类 , 这时候需要更加稳定的打包方式 去打包 scala
阅读全文
摘要:核心代码如下 object Sprk { import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.SparkSession def main(args: Array[String]): Unit = { Logger.g
阅读全文
摘要:K:有什么用? 内存不足可以用. 1.上代码 我是1-10分为3个分区 , 并取出下标号为0 的分区的数据 ,然后Type ,要想获得自己想要的分区 , 执行 这里返回的是新 RDD , 并且支持 map等操作 , 但是你只能操作一个分区了 . 在某些内存不够用的情况下 , 可以采用这种分阶段操作的
阅读全文
摘要:1.Spark 内部已经实现了连接各种数据库和仓库 MySQL HDFS HIVE textFile RDD(数据集) 将 HDFS 基于Spark 得到的计算结果保存至MySQL 也是极其简单的 如何将程序更加模块化和可控制 ,我们一般都是运行时加不同参数 以达到不同时间 , 不同地点 , 不同需
阅读全文
摘要:1.准备 idea , 配置好scala ,需要有 Spark sql包 !注意:如果自己Spark能跑 ,就不要复制我的POM了,代码能直接用. 贴一下POM , 我用的是Spark版本是 2.4.3, Spark_core以及sql是2.11 <?xml version="1.0" encodi
阅读全文
摘要:package scala.spark.Day3; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkConte
阅读全文

浙公网安备 33010602011771号