spark - 随笔分类 - 小丑鱼快跑

java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from 解决

摘要：在用spark的yarn-cluster模式跑fpgrowth进行频繁项集挖掘的时候，报如下错误： 1、进行lib目录，发现有多个guava版本 2、修改pom，删除guava依赖，运行，还是报错 3、pom中spark相关jar包都是使用的provide模式，怎么会报错了，纳闷。 4、看下集群中h 阅读全文

posted @ 2017-01-14 12:11 小丑鱼快跑阅读(25690) 评论(2) 推荐(0)

七、rdd究竟是什么

摘要：RDD是个抽象类，定义了诸如map()、reduce()等方法，但实际上继承RDD的派生类一般只要实现两个方法： def getPartitions: Array[Partition] def compute(thePart: Partition, context: TaskContext): Ne 阅读全文

posted @ 2016-08-02 22:23 小丑鱼快跑阅读(476) 评论(0) 推荐(0)

六、spark常见问题总结（转载）

摘要：问题导读 1、当前集群的可用资源不能满足应用程序的需求，怎么解决？ 2、内存里堆的东西太多了，有什么好办法吗？ 1、WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster uito 阅读全文

posted @ 2016-08-02 22:22 小丑鱼快跑阅读(737) 评论(0) 推荐(0)

五、RDD持久化

摘要：Spark最重要的一个功能是它可以通过各种操作（operations）持久化（或者缓存）一个集合到内存中。当你持久化一个RDD的时候，每一个节点都将参与计算的所有分区数据存储到内存中，并且这些数据可以被这个集合（以及这个集合衍生的其他集合）的动作（action）重复利用。这个能力使后续的动作速度更快阅读全文

posted @ 2016-08-02 22:20 小丑鱼快跑阅读(2605) 评论(0) 推荐(0)

四、spark常用函数说明学习

摘要：1、parallelize 并行集合，切片数。默认为这个程序所分配到的资源的cpu核的个数。查看大小：rdd.partitions.size sc.paralielize(1 to 100,2) 2、rdd持久化 persist() cache() persist() cache() persis 阅读全文

posted @ 2016-08-02 22:15 小丑鱼快跑阅读(304) 评论(0) 推荐(0)

三、spark入门：文本中发现5个最常用的word，排除常用停用词

摘要：package com.yl.wordcountimport java.io.Fileimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.Iteratorimport scala.io.Source/** 阅读全文

posted @ 2016-08-02 22:12 小丑鱼快跑阅读(1206) 评论(0) 推荐(0)

二、spark入门之spark shell：文本中发现5个最常用的word

摘要：scala> val textFile = sc.textFile("/Users/admin/spark-1.5.1-bin-hadoop2.4/README.md") scala> val topWord = textFile.flatMap(_.split(" ")).filter(!_.is 阅读全文

posted @ 2016-08-02 22:07 小丑鱼快跑阅读(1353) 评论(0) 推荐(0)

一、spark入门之spark shell：wordcount

摘要：1、安装完spark，进入spark中bin目录: bin/spark-shell scala> val textFile = sc.textFile("/Users/admin/spark/spark-1.6.1-bin-hadoop2.6/README.md") scala> textFile. 阅读全文

posted @ 2016-08-02 22:05 小丑鱼快跑阅读(858) 评论(0) 推荐(0)

随笔分类 - spark