随笔分类 -  spark

摘要:打开mr管理页面 重点在红框处,2.3g的虚拟内存实际值,超过了2.1g的上限。也就是说虚拟内存超限,所以contrainer被干掉了,活都是在容器干的,容器被干掉了 解决方案 yarn-site.xml 增加配置: 2个配置2选一即可 <!--以下为解决spark-shell 以yarn clie 阅读全文
posted @ 2020-09-18 15:01 kwz 阅读(657) 评论(0) 推荐(0)
摘要:package test import org.apache.spark.sql.{DataFrame, ForeachWriter, Row, SparkSession} import org.apache.spark.sql.streaming.{ProcessingTime, Trigger} 阅读全文
posted @ 2020-06-24 15:28 kwz 阅读(510) 评论(0) 推荐(0)
摘要:第一种方式: private def singleDataSaveMysql(sql: String) = { val dataFrame2: DataFrame = ss.sql(sql) val resultRDD = df2rdd(dataFrame2) val value: RDD[Map[ 阅读全文
posted @ 2020-04-28 16:12 kwz 阅读(1490) 评论(0) 推荐(0)
摘要:1. Ctrl+Alt+V自动生成变量后,Specify type选项勾选之后会显示出变量的类型,默认是没有勾选的,为了方便设置为自动勾选,点击Settings,在Type Annotations选项卡里,勾选Local definition选项。然后再下一次的Specify type选项这里勾选上 阅读全文
posted @ 2020-03-26 10:20 kwz 阅读(2660) 评论(0) 推荐(0)
摘要:spark提交作业命令: ./spark-submit --master yarn --deploy-mode cluster --class com.zjlantone.hive.SparkOperatorHiveTest --total-executor-cores 8 --executor-c 阅读全文
posted @ 2019-06-21 16:54 kwz 阅读(578) 评论(0) 推荐(0)
摘要:1 package com.zjlantone.hive 2 3 import java.util.Properties 4 5 import com.zjlantone.hive.SparkOperaterHive.sparkSession 6 import org.apache.spark.rd 阅读全文
posted @ 2018-12-28 16:58 kwz 阅读(1659) 评论(0) 推荐(0)
摘要:package org.langtong.sparkdemo; import com.fasterxml.jackson.databind.ObjectMapper; import org.apache.spark.SparkConf; import org.apache.spark.SparkCo 阅读全文
posted @ 2018-12-26 17:27 kwz 阅读(1087) 评论(0) 推荐(0)
摘要:直接上代码:包含了,map,filter,persist,mapPartitions等函数 String master = "spark://192.168.2.279:7077"; // jsc = getContext("local[2]"); jsc = getContext(master); 阅读全文
posted @ 2018-12-26 17:12 kwz 阅读(793) 评论(0) 推荐(0)
摘要:./spark-sql --conf spark.driver.maxResultSize=8g --driver-memory 20g --conf spark.kryoserializer.buffer.max=1G --conf spark.kryoserializer.buer=64m 测试 阅读全文
posted @ 2018-12-04 17:12 kwz 阅读(848) 评论(0) 推荐(0)
摘要:hive on spark真的很折腾人啊!!!!!!! 一.软件准备阶段 maven3.3.9 spark2.0.0 hive2.3.3 hadoop2.7.6 二.下载源码spark2.0.0,编译 下载地址:http://archive.apache.org/dist/spark/spark-2 阅读全文
posted @ 2018-09-07 16:11 kwz 阅读(2848) 评论(1) 推荐(1)
摘要:要求:计算hasgj表,计算每天新增mac数量。 因为spark直接扫描hbase表,对hbase集群访问量太大,给集群造成压力,这里考虑用spark读取HFile进行数据分析。 1、建立hasgj表的快照表:hasgjSnapshot 语句为:snapshot 'hasgj','hasgjSnap 阅读全文
posted @ 2018-05-08 13:37 kwz 阅读(5500) 评论(1) 推荐(0)
摘要:spark提交任务报错: java.lang.SecurityException: Invalid signature file digest for Manifest main attributes 对jar包执行:zip -d ztoTest1.jar META-INF/*.RSA META-I 阅读全文
posted @ 2018-04-25 12:05 kwz 阅读(342) 评论(0) 推荐(0)
摘要:目标:sparkStreaming每2s中读取一次kafka中的数据,进行单词计数。 topic:topic1 broker list:192.168.1.126:9092,192.168.1.127:9092,192.168.1.128:9092 1、首先往一个topic中实时生产数据。 代码如下 阅读全文
posted @ 2017-09-13 09:37 kwz 阅读(981) 评论(0) 推荐(0)