spark - 随笔分类 - kwz

spark yarn client 报错Yarn application has already ended! It might have been killed or unable to launch application master

摘要：打开mr管理页面重点在红框处，2.3g的虚拟内存实际值，超过了2.1g的上限。也就是说虚拟内存超限，所以contrainer被干掉了，活都是在容器干的，容器被干掉了解决方案 yarn-site.xml 增加配置： 2个配置2选一即可 <!--以下为解决spark-shell 以yarn clie 阅读全文

posted @ 2020-09-18 15:01 kwz 阅读(657) 评论(0) 推荐(0)

kafka -> structuredStreaming读取kafka日志 ->自定义输出到mysql

摘要：package test import org.apache.spark.sql.{DataFrame, ForeachWriter, Row, SparkSession} import org.apache.spark.sql.streaming.{ProcessingTime, Trigger} 阅读全文

posted @ 2020-06-24 15:28 kwz 阅读(510) 评论(0) 推荐(0)

spark写入mysql

摘要：第一种方式： private def singleDataSaveMysql(sql: String) = { val dataFrame2: DataFrame = ss.sql(sql) val resultRDD = df2rdd(dataFrame2) val value: RDD[Map[ 阅读全文

posted @ 2020-04-28 16:12 kwz 阅读(1490) 评论(0) 推荐(0)

IDEA中scala生成变量后自动显示变量类型

摘要：1. Ctrl+Alt+V自动生成变量后，Specify type选项勾选之后会显示出变量的类型，默认是没有勾选的，为了方便设置为自动勾选，点击Settings,在Type Annotations选项卡里，勾选Local definition选项。然后再下一次的Specify type选项这里勾选上阅读全文

posted @ 2020-03-26 10:20 kwz 阅读(2660) 评论(0) 推荐(0)

spark yarn 提交作业

摘要：spark提交作业命令: ./spark-submit --master yarn --deploy-mode cluster --class com.zjlantone.hive.SparkOperatorHiveTest --total-executor-cores 8 --executor-c 阅读全文

posted @ 2019-06-21 16:54 kwz 阅读(578) 评论(0) 推荐(0)

spark读文件写入mysql(scala版本)

摘要：1 package com.zjlantone.hive 2 3 import java.util.Properties 4 5 import com.zjlantone.hive.SparkOperaterHive.sparkSession 6 import org.apache.spark.rd 阅读全文

posted @ 2018-12-28 16:58 kwz 阅读(1659) 评论(0) 推荐(0)

spark读文件写mysql(java版)

摘要：package org.langtong.sparkdemo; import com.fasterxml.jackson.databind.ObjectMapper; import org.apache.spark.SparkConf; import org.apache.spark.SparkCo 阅读全文

posted @ 2018-12-26 17:27 kwz 阅读(1087) 评论(0) 推荐(0)

spark的广播变量

摘要：直接上代码:包含了,map,filter,persist,mapPartitions等函数 String master = "spark://192.168.2.279:7077"; // jsc = getContext("local[2]"); jsc = getContext(master); 阅读全文

posted @ 2018-12-26 17:12 kwz 阅读(793) 评论(0) 推荐(0)

spark sql启动优化

摘要：./spark-sql --conf spark.driver.maxResultSize=8g --driver-memory 20g --conf spark.kryoserializer.buffer.max=1G --conf spark.kryoserializer.buer=64m 测试阅读全文

posted @ 2018-12-04 17:12 kwz 阅读(848) 评论(0) 推荐(0)

hive on spark (spark2.0.0 hive2.3.3)

摘要：hive on spark真的很折腾人啊!!!!!!! 一.软件准备阶段 maven3.3.9 spark2.0.0 hive2.3.3 hadoop2.7.6 二.下载源码spark2.0.0,编译下载地址:http://archive.apache.org/dist/spark/spark-2 阅读全文

posted @ 2018-09-07 16:11 kwz 阅读(2848) 评论(1) 推荐(1)

spark读HFile对hbase表数据进行分析

摘要：要求：计算hasgj表，计算每天新增mac数量。因为spark直接扫描hbase表，对hbase集群访问量太大，给集群造成压力，这里考虑用spark读取HFile进行数据分析。 1、建立hasgj表的快照表：hasgjSnapshot 语句为：snapshot 'hasgj','hasgjSnap 阅读全文

posted @ 2018-05-08 13:37 kwz 阅读(5500) 评论(1) 推荐(0)

spark提交任务报错： java.lang.SecurityException: Invalid signature file digest for Manifest main attributes

摘要：spark提交任务报错： java.lang.SecurityException: Invalid signature file digest for Manifest main attributes 对jar包执行：zip -d ztoTest1.jar META-INF/*.RSA META-I 阅读全文

posted @ 2018-04-25 12:05 kwz 阅读(342) 评论(0) 推荐(0)

sparkStreaming 读kafka的数据

摘要：目标：sparkStreaming每2s中读取一次kafka中的数据，进行单词计数。 topic:topic1 broker list:192.168.1.126:9092,192.168.1.127:9092,192.168.1.128:9092 1、首先往一个topic中实时生产数据。代码如下阅读全文

posted @ 2017-09-13 09:37 kwz 阅读(981) 评论(0) 推荐(0)

kwz

随笔分类 - spark

公告