随笔分类 -  Spark

Spark
摘要:现象: 代码如下 打印出来结果为 原因: 序列化出现了问题,这里我在前面引用的Encoder 是 implicit val odsClewordPacakgesBeanEncoder = org.apache.spark.sql.Encoders.kryo[DimIdpCourseStructInf 阅读全文
posted @ 2021-06-01 18:08 可以看看你胖次吗 阅读(160) 评论(0) 推荐(0)
摘要:报错信息: 解决: 添加配置 ps:spark 读取csv参数解析 https://blog.csdn.net/qq_36535820/article/details/108993618 阅读全文
posted @ 2020-12-13 11:54 可以看看你胖次吗 阅读(270) 评论(0) 推荐(0)
摘要:时间差计算 /** * 根据用户今日学习,关卡状态,最近学习时间来判断是否跳课 * @author yangxu * @date 2020/9/28 5:53 下午 * @param isStudyToday 今日是否学习 * @param planStatus 关卡状态 * @param stud 阅读全文
posted @ 2020-10-01 16:30 可以看看你胖次吗 阅读(218) 评论(0) 推荐(0)
摘要:参考链接:https://stackoverflow.com/questions/37301241/spark-task-not-serializable-with-lag-window-function https://www.cnblogs.com/aixing/p/13327364.html 阅读全文
posted @ 2020-09-25 17:51 可以看看你胖次吗 阅读(558) 评论(0) 推荐(0)
摘要:脚本示例 spark-submit --master yarn \ --packages org.yang.component:common:1.2.3-SNAPSHOT,com.cloudera.impala.jdbc:ImpalaJDBC41:2.5.41 \ --repositories ht 阅读全文
posted @ 2020-08-25 14:17 可以看看你胖次吗 阅读(559) 评论(0) 推荐(0)
摘要:问题: 从同一个Kafka里消费数据做一个WordCount,flink,Kafkaconsumer 得到的结果都是正常的,而我自己写的sparkstreaming 确跟正常数据量差了10倍左右 解决: 总结一句话:一定要听官网的话!!! http://spark.apache.org/docs/2 阅读全文
posted @ 2020-08-17 18:58 可以看看你胖次吗 阅读(461) 评论(1) 推荐(1)
摘要:解决方案: 先创建sparkSession,然后再通过SparkSession去创建StreamingContext 阅读全文
posted @ 2020-08-11 18:29 可以看看你胖次吗 阅读(426) 评论(0) 推荐(0)
摘要:https://stackoom.com/question/3v3NC/AnalysisException-%E6%89%BE%E4%B8%8D%E5%88%B0%E8%A1%A8%E6%88%96%E8%A7%86%E5%9B%BE-%E5%8D%B3%E4%BD%BF%E5%9C%A8%E6%8 阅读全文
posted @ 2020-08-10 17:25 可以看看你胖次吗 阅读(714) 评论(1) 推荐(1)
摘要:https://blog.csdn.net/ct2020129/article/details/90695033 原因是 hive 依赖版本太低,需要升级为1.2.1 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-j 阅读全文
posted @ 2020-08-10 16:08 可以看看你胖次吗 阅读(609) 评论(0) 推荐(0)
摘要:基本思想 与flink流的join原理不同的是,Spark双流join是对俩个流做满外连接 ,因为网络延迟等关系,不能保证每个窗口中的数据key都能匹配上,这样势必会出现三种情况:(some,some),(None,some),(Some,None),根据这三种情况,下面做一下详细解析: (some 阅读全文
posted @ 2020-06-15 20:21 可以看看你胖次吗 阅读(1716) 评论(2) 推荐(1)
摘要:有一个需求是: 最近一小时内商品的点击次数 方案是用SparkStreaming 来做,利用窗口可以轻松达到目的,然后再将结果存入数据库,可问题就出现了,因为商品id为主键,这是不能重复的,如何更新呢?这就要用到以下的sql "insert into ads_hour values(?, ?) on 阅读全文
posted @ 2020-05-19 20:12 可以看看你胖次吗 阅读(722) 评论(0) 推荐(0)
摘要:错误思想 举个列子,当我们想要比较 一个 类型为 RDD[(Long, (String, Int))] 的RDD,让它先按Long分组,然后按int的值进行倒序排序,最容易想到的思维就是先分组,然后把Iterable 转换为 list,然后sortby,但是这样却有一个致命的缺点,就是Iterabl 阅读全文
posted @ 2020-05-18 19:01 可以看看你胖次吗 阅读(1124) 评论(0) 推荐(0)
摘要:配置 1、将Hive-site.xml复制到Spark/conf目录下 如果hive-site中配置了查询引擎,需要将其注掉 <!-- <property> <name>hive.execution.engine</name> <value>tez</value> </property> --> 2 阅读全文
posted @ 2020-05-14 19:04 可以看看你胖次吗 阅读(4361) 评论(1) 推荐(0)
摘要:JDBC 以MySQL为例 读取 import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkContext} /** * Author yang 阅读全文
posted @ 2020-05-09 21:58 可以看看你胖次吗 阅读(436) 评论(0) 推荐(0)
摘要:问题 为防止因为虚拟机内存过少,进程被杀死,需要关闭yarn的内存检测 yarn-site.xml <!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true --> <property> <name>yarn.nodemanager.pmem-che 阅读全文
posted @ 2020-05-04 19:55 可以看看你胖次吗 阅读(335) 评论(0) 推荐(0)

Live2D