摘要: 那些年我们在spark SQL上踩过的坑1.高并发情况下的内存泄露的具体表现很遗憾,spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存... 阅读全文
posted @ 2017-10-21 19:58 柚子=_= 阅读(1374) 评论(0) 推荐(0)
摘要: 性能优化参数 在spark中,Spark SQL性能调优只要是通过下面的一些选项进行优化的:1 spark.sql.codegen 默认值为false,当它设置为true时,Spark SQL会把每条查询的语句在运行时编译为java的二进制代码。这有什么作用呢?它可以提高大型查询的性能,但是如果进行... 阅读全文
posted @ 2017-10-21 19:46 柚子=_= 阅读(1515) 评论(0) 推荐(0)
摘要: Spark Sql性能测试及调优目录(?)[+]内存不足时group by操作失败。正常应该速度变慢,而不是失败,因为还有磁盘可用错误日志:Task:java.io.IOException: Filesystem... 阅读全文
posted @ 2017-10-21 19:39 柚子=_= 阅读(349) 评论(0) 推荐(0)
摘要: 机器学习与深度学习资料机器学习《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林... 阅读全文
posted @ 2017-10-21 19:18 柚子=_= 阅读(493) 评论(0) 推荐(0)