会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Meditation
埋滴忒深
博客园
首页
新随笔
联系
管理
订阅
上一页
1
···
20
21
22
23
24
25
26
下一页
2019年4月13日
spark DataFrame
摘要: DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询。 从上面的图中可以看出DataFrame和RDD的区别。RDD是分布式的 Jav
阅读全文
posted @ 2019-04-13 09:06 _Meditation
阅读(186)
评论(0)
推荐(0)
2019年4月10日
spark MLlib collaborativeFilltering学习
摘要: 1 package ML.collaborativeFilltering; 2 3 import org.apache.spark.SparkConf; 4 import org.apache.spark.api.java.JavaDoubleRDD; 5 import org.apache.spark.api.java.JavaPairRDD; 6 import org.apac...
阅读全文
posted @ 2019-04-10 16:23 _Meditation
阅读(260)
评论(0)
推荐(0)
2019年4月9日
spark MLlib Classification and regression 学习
摘要: 二分类:SVMs,logistic regression,decision trees,random forests,gradient-boosted trees,naive Bayes 多分类: logistic regression,decision trees,random forests,
阅读全文
posted @ 2019-04-09 18:22 _Meditation
阅读(248)
评论(0)
推荐(0)
2019年4月4日
spark MLlib BasicStatistics 统计学基础
摘要: 一, jar依赖,jsc创建。 二。Summary statistics 三。Correlations:相关性 三,Stratified sampling:分层抽样 四。Hypothesis testing 假设检验 五。Random data generation 六。Kernel density
阅读全文
posted @ 2019-04-04 16:13 _Meditation
阅读(324)
评论(0)
推荐(0)
spark MLlib DataType ML中的数据类型
摘要: package ML.DataType; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.mllib.linalg.*; import o...
阅读全文
posted @ 2019-04-04 15:22 _Meditation
阅读(402)
评论(0)
推荐(0)
2019年4月2日
spark actions 算子
摘要: package action; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import o...
阅读全文
posted @ 2019-04-02 11:35 _Meditation
阅读(132)
评论(0)
推荐(0)
spark Transformations算子
摘要: 在java中,RDD分为javaRDDs和javaPairRDDs。下面分两大类来进行。 都必须要进行的一步。 一。javaRDDs 二。JavaPairRDDs. zip: 最后都要加上 aggregateByKey算子详解 repartitionAndSortWithinPartitions算子
阅读全文
posted @ 2019-04-02 10:44 _Meditation
阅读(204)
评论(0)
推荐(0)
2019年3月29日
读文件/写文件。http请求。读取文件列表。
摘要: package transfor; import java.io.*; import java.net.HttpURLConnection; import java.net.URL; import java.util.ArrayList; public class demo { private static ArrayList filelist = new ArrayList(); ...
阅读全文
posted @ 2019-03-29 14:19 _Meditation
阅读(1649)
评论(0)
推荐(0)
遍历文件路径python版,java版
摘要: python: java:
阅读全文
posted @ 2019-03-29 13:45 _Meditation
阅读(235)
评论(0)
推荐(0)
2019年3月26日
spark学习之路1--用IDEA编写第一个基于java的程序打包,放standalone集群,client和cluster模式上运行
摘要: 1,首先确保hadoop和spark已经运行。(如果是基于yarn,hdfs的需要启动hadoop,否则hadoop不需要启动)。 2.打开idea,创建maven工程。编辑pom.xml文件。增加dependency. <dependency> <!-- Spark dependency -->
阅读全文
posted @ 2019-03-26 15:44 _Meditation
阅读(428)
评论(0)
推荐(0)
上一页
1
···
20
21
22
23
24
25
26
下一页
公告