见贤思小齐,知足常乐呵

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  Scala

摘要:1. 原理和理论基础(参考) 2. Spark代码实例: 1)windows 单机 2)集群模式 需要打包,然后通过spark-submit 提交到yarn client或者cluster中: spark-submit --class myNaiveBayes --master yarn Scala 阅读全文
posted @ 2016-11-22 11:52 Suckseedeva 阅读(1258) 评论(0) 推荐(0)

摘要:Spark开发中遇到了一些小问题,都是大神随便一个手指头帮我解决的。保持学习,积累吧! 一. 基于Intellij IDEA编辑器 1. 快捷键 注释/去注释 Ctrl+Shift+? 2. repository 依赖 不同的公司可能有自己的私服,是同事们已经下载的jar包等,可以在 .m2/set 阅读全文
posted @ 2016-11-13 15:29 Suckseedeva 阅读(366) 评论(0) 推荐(0)

摘要:1. PageRank http://blog.csdn.net/hguisu/article/details/7996185 2. Connected Components 3. Triangle Counting 例子: users.txt followers.txt 算法实战: 阅读全文
posted @ 2016-09-28 16:35 Suckseedeva 阅读(3820) 评论(0) 推荐(0)

摘要:package main.scala import org.apache.spark.graphx.{Edge, Graph, VertexId} import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object graph_test { // define hadoop... 阅读全文
posted @ 2016-09-23 15:23 Suckseedeva 阅读(642) 评论(0) 推荐(0)

摘要:1. 初始化Spark 2. 创建RDD的方法 内存:Parallelize 或者 makeRDD 外部文件:textFile 3. 保存Spark结果 RDD可以使用 saveAsTextFile()保存下来; 非RDD,可以借助 Parallelize/makeRDD转化为RDD,再保存下来 4 阅读全文
posted @ 2016-09-13 10:17 Suckseedeva 阅读(425) 评论(0) 推荐(0)

摘要:1) 本地运行报错: 解决方案: 第一种, 在代码里设置: 第二种,在IDE里设置为本地单线程运行(-Dspark.master=local) 2) 调用函数出错: 原因:main函数和另一个独立的函数我都定义了SparkContext 解决:把main函数里面的SparkContext定义去掉。直 阅读全文
posted @ 2016-09-10 16:58 Suckseedeva 阅读(4694) 评论(0) 推荐(0)

摘要:欢呼一下先。软件环境菜鸟的我终于把单机Spark 和 Pyspark 安装成功了。加油加油!!! 1. 安装方法参考: 已安装Pycharm 和 Intellij IDEA。 win7 PySpark 安装: http://blog.csdn.net/a819825294/article/detai 阅读全文
posted @ 2016-09-10 15:51 Suckseedeva 阅读(3474) 评论(0) 推荐(0)

摘要:为了学习Spark,我开始了学习Scala。加油! 递归的一个题目: 代码: 疑问: 为什么参数定义时,X明明是 Float型,但是我调用函数时,X=3.0 等却报错!希望自己早日发现问题所在! 阅读全文
posted @ 2016-09-07 22:47 Suckseedeva 阅读(1005) 评论(0) 推荐(0)