会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
msw0529
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
下一页
2017年7月21日
Spark Rowmatrix 分布式矩阵
摘要: CoordinateMatrix坐标矩阵
阅读全文
posted @ 2017-07-21 10:19 亢奋的小马哥
阅读(3024)
评论(0)
推荐(0)
2017年7月14日
spark 特征选择之FeatureSelectors DataFrame[vector] 转 DataFrame[Row]
摘要: package mlimport java.utilimport org.apache.spark.mllib.linalg.{Vector, Vectors}import org.apache.spark.mllib.linalg.distributed.RowMatriximport org.a
阅读全文
posted @ 2017-07-14 14:39 亢奋的小马哥
阅读(4143)
评论(0)
推荐(0)
2017年7月6日
SparkSql之DataFrame操作
摘要: Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.6.2的文档实现。 一、DataFrame对象的生成
阅读全文
posted @ 2017-07-06 16:15 亢奋的小马哥
阅读(5683)
评论(0)
推荐(0)
2017年6月30日
用Java将Excel的xls和xlsx文件转换成csv文件的方法, XLS2CSV, XLSX2CSV
摘要: 利用poi将excel文件后缀为.xls .xlsx的文件转换成txt/csv文本文件 首先,引入所需的jar包: 完整代码 调用
阅读全文
posted @ 2017-06-30 13:59 亢奋的小马哥
阅读(3733)
评论(0)
推荐(0)
spark机器学习之KMeans算法实现
摘要: 一、概念 KMeans基于划分的聚类方法 给定数据样本集Sample和应该划分的类书K,对样本数据Sample进行聚类,最终形成K个聚类,其相似的度量是某条数据与中心点的“距离”(距离可分为绝对距离、欧氏距离、闵可夫斯基距离。这里说的距离是欧式距离,欧氏距离也称欧几里得距离,它是在m维空间中两个点之
阅读全文
posted @ 2017-06-30 09:19 亢奋的小马哥
阅读(544)
评论(0)
推荐(0)
2017年6月29日
Spark: Could not find CoarseGrainedScheduler
摘要: It could be a resource problem. Try to increase the number of cores and executor and also to assign more RAM to the application then you should increa
阅读全文
posted @ 2017-06-29 15:14 亢奋的小马哥
阅读(9491)
评论(0)
推荐(0)
2017年6月28日
Spark 把RDD数据保存到hdfs单个文件中,而不是目录
摘要: 相比于Hadoop,Spark在数据的处理方面更加灵活方便。然而在最近的使用中遇到了一点小麻烦:Spark保存文件的的函数(如saveAsTextFile)在保存数据时都需要新建一个目录,然后在这个目录下分块保存文件。如果我们想在原有的目录下增加一个文件(而不是增加一个目录) 把分区设置成1个 结果
阅读全文
posted @ 2017-06-28 17:47 亢奋的小马哥
阅读(4694)
评论(0)
推荐(0)
2017年6月23日
spark-submit command-line with --files
摘要: spark提交任务 bin/spark-submit --name Test --class com.test.batch.modeltrainer.ModelTrainerMain \ --master local --files /tmp/myobject.ser --verbose /opt/
阅读全文
posted @ 2017-06-23 09:54 亢奋的小马哥
阅读(1786)
评论(0)
推荐(1)
2017年6月22日
spark Application report for application_1498032012194_0036 (state: FAILED)
摘要: spark yarn集群模式提交遇到的问题 一直请求资源最后失败,后台日志会出现路径不存在等 17/06/22 16:16:49 INFO yarn.Client: Application report for application_1498032012194_0036 (state: ACCEP
阅读全文
posted @ 2017-06-22 18:30 亢奋的小马哥
阅读(3044)
评论(1)
推荐(0)
scheduler.LiveListenerBus: SparkListenerBus has already stopped! Dropping event SparkListenerExecutorMetricsUpdate(1,WrappedArray())
摘要: 引起这个问题的原因是因为spark没有关闭
阅读全文
posted @ 2017-06-22 18:26 亢奋的小马哥
阅读(5394)
评论(2)
推荐(0)
上一页
1
2
3
下一页
公告