Spark - 随笔分类 - loadofleaf

Husky or C++ API - HDFS Short-Circuit Local Reads

摘要：hdfs-site.xml added: C++运行程序主目录 hdfs.client.xml 配置参考： https://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html https: 阅读全文

posted @ 2016-07-22 12:07 loadofleaf 阅读(265) 评论(0) 推荐(0)

Hadoop - Unable to load native-hadoop library for your platform

摘要：简介运行hadoop或者spark（调用hdfs等）时，总出现这样的错误“Unable to load native-hadoop library for your platform”，其实是无法加载本地库解决办法 1.环境变量是否设好（设好但是还不行尝试第二步） export HADOOP_C 阅读全文

posted @ 2016-07-22 11:28 loadofleaf 阅读(1270) 评论(0) 推荐(0)

Spark Programming--Transformations

摘要：map将RDD中的每个数据项，一对一的映射关系，RDD数目不变，分区数也不变例子：数据集：map操作：flatMap和map一样，但是会拆分每一个map之后的list，可以理解为一对多（注：会把字符串当作数组然后拆分）例子：distinct对RDD的数据项进行去重操作例子：coalescedef c... 阅读全文

posted @ 2016-01-02 13:47 loadofleaf 阅读(372) 评论(0) 推荐(0)

Spark Programming--Actions

摘要：firstdef first(): Tfirst返回RDD中的第一个元素，不排序。例子：countdef count(): Longcount返回RDD中的元素数量例子：reducedef reduce(f: (T, T) ⇒ T): T根据映射函数f，对RDD中的元素进行二元计算，返回计算结果（可... 阅读全文

posted @ 2016-01-02 13:47 loadofleaf 阅读(188) 评论(0) 推荐(0)

Spark Programming--Actions II

摘要：saveAsTextFilesaveAsTextFile(path,compressionCodecClass=None)aveAsTextFile用于将RDD以文本文件的格式存储到文件系统中，将每一个元素以string格式存储（结合python的loads和dumps可以很好应用）Paramet... 阅读全文

posted @ 2016-01-02 13:47 loadofleaf 阅读(353) 评论(0) 推荐(0)

Spark Programming--Fundamental operation

摘要：maxmax（key=None）Find the maximum item in this RDD.Parameters:key– A function used to generate key for comparing例子：meanmean()Compute the mean of this R... 阅读全文

posted @ 2015-12-30 21:38 loadofleaf 阅读(209) 评论(0) 推荐(0)

Spark Programming--WordCount

摘要：首先在$SPARK_HOME主目录下建立一个test文件夹，里面放一些文件（注意文件全部内容都可被hadoop用户访问，否则运行会出现permission denied的错误）打开pyspark: ./bin/pyspark读入文件整行切割（flatMap, s.split()）映射数量（map, ... 阅读全文

posted @ 2015-12-30 15:14 loadofleaf 阅读(132) 评论(0) 推荐(0)

loadofleaf

随笔分类 - Spark

公告