David_Zhu

导航

 

2018年12月3日

摘要: 一.做基础数据准备 这次使用fights得数据。 scala> val flights= sc.textFile("/user/hdfs/data/Flights/flights.csv")flights: org.apache.spark.rdd.RDD[String] = /user/hdfs/ 阅读全文
posted @ 2018-12-03 14:47 David_Zhu 阅读(320) 评论(0) 推荐(0)
 

2018年11月28日

摘要: 参考地址人人开源官网: https://www.renren.io/guide/ 1.介绍 1.1.项目描述 1.2.获取帮助 后台地址:https://gitee.com/renrenio/renren-fast element-ui地址:https://github.com/daxiongYan 阅读全文
posted @ 2018-11-28 21:39 David_Zhu 阅读(11381) 评论(0) 推荐(0)
 

2018年11月23日

摘要: 培训系列7--对复合value做reduce 1.做基础数据准备 val collegesRdd= sc.textFile("/user/hdfs/CollegeNavigator.csv")val header= collegesRdd.first val headerlessRdd= colle 阅读全文
posted @ 2018-11-23 16:48 David_Zhu 阅读(245) 评论(0) 推荐(0)
 
摘要: 1.前期数据准备(同之前的章节) val collegesRdd= sc.textFile("/user/hdfs/CollegeNavigator.csv")val header= collegesRdd.first val headerlessRdd= collegesRdd.filter( l 阅读全文
posted @ 2018-11-23 11:59 David_Zhu 阅读(383) 评论(0) 推荐(0)
 

2018年11月22日

摘要: 培训系列5--spark 的 RDD 的 reduce方法使用 1.spark-shell环境下准备数据 val collegesRdd= sc.textFile("/user/hdfs/CollegeNavigator.csv")val header= collegesRdd.first val 阅读全文
posted @ 2018-11-22 11:24 David_Zhu 阅读(724) 评论(0) 推荐(0)
 

2018年11月21日

摘要: Michael BarnesSingle User LicenseEA7E-8213858A353C41 872A0D5C DF9B2950 AFF6F667C458EA6D 8EA3C286 98D1D650 131A97ABAA919AEC EF20E143 B361B1E7 4C8B7F04B 阅读全文
posted @ 2018-11-21 11:19 David_Zhu 阅读(1111) 评论(0) 推荐(0)
 
摘要: 学习了之前的rdd的filter以后,这次来讲spark的map方式 1.获得文件 val collegesRdd= sc.textFile("/user/hdfs/CollegeNavigator.csv")val header= collegesRdd.first 2.通过filter获得纯粹的 阅读全文
posted @ 2018-11-21 10:55 David_Zhu 阅读(1504) 评论(0) 推荐(0)
 

2018年11月20日

摘要: 一。如何处理RDD的filter 1. 把第一行的行头去掉 scala> val collegesRdd= sc.textFile("/user/hdfs/CollegeNavigator.csv")collegesRdd: org.apache.spark.rdd.RDD[String] = /u 阅读全文
posted @ 2018-11-20 14:21 David_Zhu 阅读(1535) 评论(0) 推荐(0)
 

2018年11月19日

摘要: scala> :helpAll commands can be abbreviated, e.g., :he instead of :help.:edit <id>|<line> edit history:help [command] print this summary or command-sp 阅读全文
posted @ 2018-11-19 11:28 David_Zhu 阅读(340) 评论(0) 推荐(0)
 

2018年11月14日

摘要: 通过hdfs或者spark用户登录操作系统,执行spark-shell spark-shell 也可以带参数,这样就覆盖了默认得参数 spark-shell --master yarn --num-executors 2 --executor-memory 2G --driver-memory 15 阅读全文
posted @ 2018-11-14 15:39 David_Zhu 阅读(911) 评论(0) 推荐(0)