随笔分类 -  spark

spark学习
java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from 解决
摘要:在用spark的yarn-cluster模式跑fpgrowth进行频繁项集挖掘的时候,报如下错误: 1、进行lib目录,发现有多个guava版本 2、修改pom,删除guava依赖,运行,还是报错 3、pom中spark相关jar包都是使用的provide模式,怎么会报错了,纳闷。 4、看下集群中h 阅读全文

posted @ 2017-01-14 12:11 小丑鱼快跑 阅读(25690) 评论(2) 推荐(0)

七、rdd究竟是什么
摘要:RDD是个抽象类,定义了诸如map()、reduce()等方法,但实际上继承RDD的派生类一般只要实现两个方法: def getPartitions: Array[Partition] def compute(thePart: Partition, context: TaskContext): Ne 阅读全文

posted @ 2016-08-02 22:23 小丑鱼快跑 阅读(476) 评论(0) 推荐(0)

六、spark常见问题总结(转载)
摘要:问题导读 1、当前集群的可用资源不能满足应用程序的需求,怎么解决? 2、内存里堆的东西太多了,有什么好办法吗? 1、WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster uito 阅读全文

posted @ 2016-08-02 22:22 小丑鱼快跑 阅读(737) 评论(0) 推荐(0)

五、RDD持久化
摘要:Spark最重要的一个功能是它可以通过各种操作(operations)持久化(或者缓存)一个集合到内存中。当你持久化一个RDD的时候,每一个节点都将参与计算的所有分区数据存储到内存中,并且这些数据可以被这个集合(以及这个集合衍生的其他集合)的动作(action)重复利用。这个能力使后续的动作速度更快 阅读全文

posted @ 2016-08-02 22:20 小丑鱼快跑 阅读(2605) 评论(0) 推荐(0)

四、spark常用函数说明学习
摘要:1、parallelize 并行集合,切片数。默认为这个程序所分配到的资源的cpu核的个数。 查看大小:rdd.partitions.size sc.paralielize(1 to 100,2) 2、rdd持久化 persist() cache() persist() cache() persis 阅读全文

posted @ 2016-08-02 22:15 小丑鱼快跑 阅读(304) 评论(0) 推荐(0)

三、spark入门:文本中发现5个最常用的word,排除常用停用词
摘要:package com.yl.wordcountimport java.io.Fileimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.Iteratorimport scala.io.Source/** 阅读全文

posted @ 2016-08-02 22:12 小丑鱼快跑 阅读(1206) 评论(0) 推荐(0)

二、spark入门之spark shell:文本中发现5个最常用的word
摘要:scala> val textFile = sc.textFile("/Users/admin/spark-1.5.1-bin-hadoop2.4/README.md") scala> val topWord = textFile.flatMap(_.split(" ")).filter(!_.is 阅读全文

posted @ 2016-08-02 22:07 小丑鱼快跑 阅读(1353) 评论(0) 推荐(0)

一、spark入门之spark shell:wordcount
摘要:1、安装完spark,进入spark中bin目录: bin/spark-shell scala> val textFile = sc.textFile("/Users/admin/spark/spark-1.6.1-bin-hadoop2.6/README.md") scala> textFile. 阅读全文

posted @ 2016-08-02 22:05 小丑鱼快跑 阅读(858) 评论(0) 推荐(0)

导航