spark问题解决 - 随笔分类 - 亢奋的小马哥

FeatureSelectors

摘要：package ml import java.util import org.apache.spark.mllib.linalg.{Vector, Vectors} import org.apache.spark.mllib.linalg.distributed.RowMatrix import org.apache.spark.rdd.RDD import org.apache.spar... 阅读全文

posted @ 2017-08-01 14:16 亢奋的小马哥阅读(262) 评论(0) 推荐(0)

Spark: Could not find CoarseGrainedScheduler

摘要：It could be a resource problem. Try to increase the number of cores and executor and also to assign more RAM to the application then you should increa 阅读全文

posted @ 2017-06-29 15:14 亢奋的小马哥阅读(9497) 评论(0) 推荐(0)

Spark 把RDD数据保存到hdfs单个文件中，而不是目录

摘要：相比于Hadoop，Spark在数据的处理方面更加灵活方便。然而在最近的使用中遇到了一点小麻烦：Spark保存文件的的函数（如saveAsTextFile）在保存数据时都需要新建一个目录，然后在这个目录下分块保存文件。如果我们想在原有的目录下增加一个文件（而不是增加一个目录）把分区设置成1个结果阅读全文

posted @ 2017-06-28 17:47 亢奋的小马哥阅读(4698) 评论(0) 推荐(0)

spark-submit command-line with --files

摘要：spark提交任务 bin/spark-submit --name Test --class com.test.batch.modeltrainer.ModelTrainerMain \ --master local --files /tmp/myobject.ser --verbose /opt/ 阅读全文

posted @ 2017-06-23 09:54 亢奋的小马哥阅读(1789) 评论(0) 推荐(1)

msw0529

随笔分类 - spark问题解决

公告