Spark - 随笔分类 - 可以看看你胖次吗

spark DataSe[A] 使用map或者Flatmap算子转化为DataSet[B]时，shcema变为binary

摘要：现象：代码如下打印出来结果为原因：序列化出现了问题，这里我在前面引用的Encoder 是 implicit val odsClewordPacakgesBeanEncoder = org.apache.spark.sql.Encoders.kryo[DimIdpCourseStructInf 阅读全文

posted @ 2021-06-01 18:08 可以看看你胖次吗阅读(160) 评论(0) 推荐(0)

spark 读取csv文件字段报错

摘要：报错信息：解决：添加配置 ps：spark 读取csv参数解析 https://blog.csdn.net/qq_36535820/article/details/108993618 阅读全文

posted @ 2020-12-13 11:54 可以看看你胖次吗阅读(270) 评论(0) 推荐(0)

spark sql 自定义常用工具函数

摘要：时间差计算 /** * 根据用户今日学习，关卡状态，最近学习时间来判断是否跳课 * @author yangxu * @date 2020/9/28 5:53 下午 * @param isStudyToday 今日是否学习 * @param planStatus 关卡状态 * @param stud 阅读全文

posted @ 2020-10-01 16:30 可以看看你胖次吗阅读(218) 评论(0) 推荐(0)

Spark sql 中窗口函数无法序列化报错 org.apache.spark.SparkException: Task not serializable

摘要：参考链接：https://stackoverflow.com/questions/37301241/spark-task-not-serializable-with-lag-window-function https://www.cnblogs.com/aixing/p/13327364.html 阅读全文

posted @ 2020-09-25 17:51 可以看看你胖次吗阅读(558) 评论(0) 推荐(0)

Spark Submit的一些注意事项

摘要：脚本示例 spark-submit --master yarn \ --packages org.yang.component:common:1.2.3-SNAPSHOT,com.cloudera.impala.jdbc:ImpalaJDBC41:2.5.41 \ --repositories ht 阅读全文

posted @ 2020-08-25 14:17 可以看看你胖次吗阅读(559) 评论(0) 推荐(0)

SparkStreaming 结合Kafka 时丢数据

摘要：问题：从同一个Kafka里消费数据做一个WordCount，flink，Kafkaconsumer 得到的结果都是正常的，而我自己写的sparkstreaming 确跟正常数据量差了10倍左右解决：总结一句话：一定要听官网的话！！！ http://spark.apache.org/docs/2 阅读全文

posted @ 2020-08-17 18:58 可以看看你胖次吗阅读(461) 评论(1) 推荐(1)

SparkStreaming 在往hive里写数据时，读不懂hive的配置文件

摘要：解决方案：先创建sparkSession，然后再通过SparkSession去创建StreamingContext 阅读全文

posted @ 2020-08-11 18:29 可以看看你胖次吗阅读(426) 评论(0) 推荐(0)

Spark SQL 建立全局临时视图后，找不到该视图

摘要：https://stackoom.com/question/3v3NC/AnalysisException-%E6%89%BE%E4%B8%8D%E5%88%B0%E8%A1%A8%E6%88%96%E8%A7%86%E5%9B%BE-%E5%8D%B3%E4%BD%BF%E5%9C%A8%E6%8 阅读全文

posted @ 2020-08-10 17:25 可以看看你胖次吗阅读(714) 评论(1) 推荐(1)

Spark on Hive 报错 java.lang.NoSuchFieldError: METASTORE_CLIENT_SOCKET_LIFETIME

摘要：https://blog.csdn.net/ct2020129/article/details/90695033 原因是 hive 依赖版本太低，需要升级为1.2.1 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-j 阅读全文

posted @ 2020-08-10 16:08 可以看看你胖次吗阅读(609) 评论(0) 推荐(0)

Spark 双流join代码示例

摘要：基本思想与flink流的join原理不同的是，Spark双流join是对俩个流做满外连接，因为网络延迟等关系，不能保证每个窗口中的数据key都能匹配上，这样势必会出现三种情况：（some，some），（None，some），（Some,None）,根据这三种情况，下面做一下详细解析：（some 阅读全文

posted @ 2020-06-15 20:21 可以看看你胖次吗阅读(1716) 评论(2) 推荐(1)

Spark 向数据库导出数据时，如何避免主键重复的问题

摘要：有一个需求是：最近一小时内商品的点击次数方案是用SparkStreaming 来做，利用窗口可以轻松达到目的，然后再将结果存入数据库，可问题就出现了，因为商品id为主键，这是不能重复的，如何更新呢？这就要用到以下的sql "insert into ads_hour values(?, ?) on 阅读全文

posted @ 2020-05-19 20:12 可以看看你胖次吗阅读(722) 评论(0) 推荐(0)

Spark 中在处理大批量数据排序问题时，如何避免OOM

摘要：错误思想举个列子，当我们想要比较一个类型为 RDD[(Long, (String, Int))] 的RDD，让它先按Long分组，然后按int的值进行倒序排序，最容易想到的思维就是先分组，然后把Iterable 转换为 list，然后sortby,但是这样却有一个致命的缺点，就是Iterabl 阅读全文

posted @ 2020-05-18 19:01 可以看看你胖次吗阅读(1124) 评论(0) 推荐(0)

Spark On Hive 配置

摘要：配置 1、将Hive-site.xml复制到Spark/conf目录下如果hive-site中配置了查询引擎，需要将其注掉  2 阅读全文

posted @ 2020-05-14 19:04 可以看看你胖次吗阅读(4361) 评论(1) 推荐(0)

Spark 与 JDBC、Hbase之间的交互

摘要：JDBC 以MySQL为例读取 import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkContext} /** * Author yang 阅读全文

posted @ 2020-05-09 21:58 可以看看你胖次吗阅读(436) 评论(0) 推荐(0)

Spark Yarn部署时注意点

摘要：问题为防止因为虚拟机内存过少，进程被杀死，需要关闭yarn的内存检测 yarn-site.xml  <property> <name>yarn.nodemanager.pmem-che 阅读全文

posted @ 2020-05-04 19:55 可以看看你胖次吗阅读(335) 评论(0) 推荐(0)

可以看看你胖次吗

欲上九天揽月，纵然失败，仍与星辰同在！

随笔分类 - Spark

公告