随笔分类 - Spark
some about spark
摘要:hdfs-site.xml added: C++运行程序主目录 hdfs.client.xml 配置 参考: https://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html https:
阅读全文
摘要:简介 运行hadoop或者spark(调用hdfs等)时,总出现这样的错误“Unable to load native-hadoop library for your platform”,其实是无法加载本地库 解决办法 1.环境变量是否设好(设好但是还不行尝试第二步) export HADOOP_C
阅读全文
摘要:map将RDD中的每个数据项,一对一的映射关系,RDD数目不变,分区数也不变例子:数据集:map操作:flatMap和map一样,但是会拆分每一个map之后的list,可以理解为一对多(注:会把字符串当作数组然后拆分)例子:distinct对RDD的数据项进行去重操作例子:coalescedef c...
阅读全文
摘要:firstdef first(): Tfirst返回RDD中的第一个元素,不排序。例子:countdef count(): Longcount返回RDD中的元素数量例子:reducedef reduce(f: (T, T) ⇒ T): T根据映射函数f,对RDD中的元素进行二元计算,返回计算结果(可...
阅读全文
摘要:saveAsTextFilesaveAsTextFile(path,compressionCodecClass=None)aveAsTextFile用于将RDD以文本文件的格式存储到文件系统中, 将每一个元素以string格式存储(结合python的loads和dumps可以很好应用)Paramet...
阅读全文
摘要:maxmax(key=None)Find the maximum item in this RDD.Parameters:key– A function used to generate key for comparing例子:meanmean()Compute the mean of this R...
阅读全文
摘要:首先在$SPARK_HOME主目录下建立一个test文件夹,里面放一些文件(注意文件全部内容都可被hadoop用户访问,否则运行会出现permission denied的错误)打开pyspark: ./bin/pyspark读入文件整行切割(flatMap, s.split())映射数量(map, ...
阅读全文

浙公网安备 33010602011771号