随笔分类 -  Spark

some about spark
摘要:hdfs-site.xml added: C++运行程序主目录 hdfs.client.xml 配置 参考: https://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html https: 阅读全文
posted @ 2016-07-22 12:07 loadofleaf 阅读(265) 评论(0) 推荐(0)
摘要:简介 运行hadoop或者spark(调用hdfs等)时,总出现这样的错误“Unable to load native-hadoop library for your platform”,其实是无法加载本地库 解决办法 1.环境变量是否设好(设好但是还不行尝试第二步) export HADOOP_C 阅读全文
posted @ 2016-07-22 11:28 loadofleaf 阅读(1270) 评论(0) 推荐(0)
摘要:map将RDD中的每个数据项,一对一的映射关系,RDD数目不变,分区数也不变例子:数据集:map操作:flatMap和map一样,但是会拆分每一个map之后的list,可以理解为一对多(注:会把字符串当作数组然后拆分)例子:distinct对RDD的数据项进行去重操作例子:coalescedef c... 阅读全文
posted @ 2016-01-02 13:47 loadofleaf 阅读(372) 评论(0) 推荐(0)
摘要:firstdef first(): Tfirst返回RDD中的第一个元素,不排序。例子:countdef count(): Longcount返回RDD中的元素数量例子:reducedef reduce(f: (T, T) ⇒ T): T根据映射函数f,对RDD中的元素进行二元计算,返回计算结果(可... 阅读全文
posted @ 2016-01-02 13:47 loadofleaf 阅读(188) 评论(0) 推荐(0)
摘要:saveAsTextFilesaveAsTextFile(path,compressionCodecClass=None)aveAsTextFile用于将RDD以文本文件的格式存储到文件系统中, 将每一个元素以string格式存储(结合python的loads和dumps可以很好应用)Paramet... 阅读全文
posted @ 2016-01-02 13:47 loadofleaf 阅读(353) 评论(0) 推荐(0)
摘要:maxmax(key=None)Find the maximum item in this RDD.Parameters:key– A function used to generate key for comparing例子:meanmean()Compute the mean of this R... 阅读全文
posted @ 2015-12-30 21:38 loadofleaf 阅读(209) 评论(0) 推荐(0)
摘要:首先在$SPARK_HOME主目录下建立一个test文件夹,里面放一些文件(注意文件全部内容都可被hadoop用户访问,否则运行会出现permission denied的错误)打开pyspark: ./bin/pyspark读入文件整行切割(flatMap, s.split())映射数量(map, ... 阅读全文
posted @ 2015-12-30 15:14 loadofleaf 阅读(132) 评论(0) 推荐(0)