上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 24 下一页
摘要: driver报下面错,同时报在我自己写的代码 collect 部分. top user 不报错,top file报错,我猜是因为file 比user多得多 20/08/24 08:37:15 ERROR MicroBatchExecution: Query [id = de341482-5e75-4 阅读全文
posted @ 2020-08-24 16:41 mashuai_191 阅读(2441) 评论(0) 推荐(0)
摘要: partitionBy 调优 https://mungingdata.com/apache-spark/partitionby/ http://tantusdata.com/spark-shuffle-case-1-partition-by-and-repartition/ Join 调优 http 阅读全文
posted @ 2020-08-16 21:21 mashuai_191 阅读(114) 评论(0) 推荐(0)
摘要: 把dataframe 一列转成 array 阅读全文
posted @ 2020-08-11 15:51 mashuai_191 阅读(1259) 评论(0) 推荐(0)
摘要: Shuffle 工作机制 https://programmersought.com/article/3482377576/ https://www.cnblogs.com/itboys/p/9226479.html shuffle 地址管理 https://zhuanlan.zhihu.com/p/ 阅读全文
posted @ 2020-08-09 10:53 mashuai_191 阅读(75) 评论(0) 推荐(0)
摘要: import spark.implicits._ val simpleData = Seq(("James","Sales","NY",90000,34,10000), ("Michael","Sales","NY",86000,56,20000), ("Robert","Sales","CA",8 阅读全文
posted @ 2020-07-30 09:37 mashuai_191 阅读(1185) 评论(0) 推荐(0)
摘要: 经常看到OOM,但是不知道什么原因? 那就学习一下spark内存管理看看到底是怎么管理内存,有什么办法防止OOM,有什么办法调优? https://0x0fff.com/spark-memory-management/ https://unraveldata.com/common-reasons-s 阅读全文
posted @ 2020-07-26 23:08 mashuai_191 阅读(96) 评论(0) 推荐(0)
摘要: 这个文章写的很清楚了 https://zhuanlan.zhihu.com/p/67930839 阅读全文
posted @ 2020-06-26 22:27 mashuai_191 阅读(123) 评论(0) 推荐(0)
摘要: 先看了丁哥发的 北交和西南交的两边论文,北交的是传统PID控制方法 导向循迹控制系统,西南交的写的不太清楚 然后看到一个国外大神1个月造自动驾驶汽车的文章 https://medium.com/@maxdeutsch/how-to-build-a-self-driving-car-in-one-mo 阅读全文
posted @ 2020-06-25 16:43 mashuai_191 阅读(189) 评论(0) 推荐(0)
摘要: import org.apache.spark.sql.DataFrame import org.apache.spark.sql.functions._ import org.apache.spark.sql.types._ // Convenience function for turning 阅读全文
posted @ 2020-06-18 16:55 mashuai_191 阅读(995) 评论(0) 推荐(0)
摘要: 备用 https://databricks.com/blog/2018/11/30/apache-avro-as-a-built-in-data-source-in-apache-spark-2-4.html https://sparkbyexamples.com/spark/spark-strea 阅读全文
posted @ 2020-06-17 09:40 mashuai_191 阅读(165) 评论(0) 推荐(0)
上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 24 下一页