mashuai_191 - 博客园

2020年8月24日

摘要： driver报下面错，同时报在我自己写的代码 collect 部分. top user 不报错，top file报错，我猜是因为file 比user多得多 20/08/24 08:37:15 ERROR MicroBatchExecution: Query [id = de341482-5e75-4 阅读全文

posted @ 2020-08-24 16:41 mashuai_191 阅读(2465) 评论(0) 推荐(0)

2020年8月16日

Spark 调优

摘要： partitionBy 调优 https://mungingdata.com/apache-spark/partitionby/ http://tantusdata.com/spark-shuffle-case-1-partition-by-and-repartition/ Join 调优 http 阅读全文

posted @ 2020-08-16 21:21 mashuai_191 阅读(118) 评论(0) 推荐(0)

2020年8月11日

把dataframe 一列转成 array

摘要：把dataframe 一列转成 array 阅读全文

posted @ 2020-08-11 15:51 mashuai_191 阅读(1259) 评论(0) 推荐(0)

2020年8月9日

Spark Shuffle

摘要： Shuffle 工作机制 https://programmersought.com/article/3482377576/ https://www.cnblogs.com/itboys/p/9226479.html shuffle 地址管理 https://zhuanlan.zhihu.com/p/ 阅读全文

posted @ 2020-08-09 10:53 mashuai_191 阅读(75) 评论(0) 推荐(0)

2020年7月30日

spark 先groupby 再从每个group里面选top n

摘要： import spark.implicits._ val simpleData = Seq(("James","Sales","NY",90000,34,10000), ("Michael","Sales","NY",86000,56,20000), ("Robert","Sales","CA",8 阅读全文

posted @ 2020-07-30 09:37 mashuai_191 阅读(1188) 评论(0) 推荐(0)

2020年7月26日

spark 内存管理

摘要：经常看到OOM，但是不知道什么原因？那就学习一下spark内存管理看看到底是怎么管理内存，有什么办法防止OOM，有什么办法调优？ https://0x0fff.com/spark-memory-management/ https://unraveldata.com/common-reasons-s 阅读全文

posted @ 2020-07-26 23:08 mashuai_191 阅读(97) 评论(0) 推荐(0)

2020年6月26日

RGB、HSV和HSL颜色空间

摘要：这个文章写的很清楚了 https://zhuanlan.zhihu.com/p/67930839 阅读全文

posted @ 2020-06-26 22:27 mashuai_191 阅读(124) 评论(0) 推荐(0)

2020年6月25日

[虚拟轨道列车] 方案

摘要：先看了丁哥发的北交和西南交的两边论文，北交的是传统PID控制方法导向循迹控制系统，西南交的写的不太清楚然后看到一个国外大神1个月造自动驾驶汽车的文章 https://medium.com/@maxdeutsch/how-to-build-a-self-driving-car-in-one-mo 阅读全文

posted @ 2020-06-25 16:43 mashuai_191 阅读(192) 评论(0) 推荐(0)

2020年6月18日

Spark Dataframe 转 Json

摘要： import org.apache.spark.sql.DataFrame import org.apache.spark.sql.functions._ import org.apache.spark.sql.types._ // Convenience function for turning 阅读全文

posted @ 2020-06-18 16:55 mashuai_191 阅读(998) 评论(0) 推荐(0)

2020年6月17日

spark 解析 kafka message

摘要：备用 https://databricks.com/blog/2018/11/30/apache-avro-as-a-built-in-data-source-in-apache-spark-2-4.html https://sparkbyexamples.com/spark/spark-strea 阅读全文

posted @ 2020-06-17 09:40 mashuai_191 阅读(165) 评论(0) 推荐(0)

mashuai 的博客（base成都）

学习，记录，并祝愿家人都健康平安

公告