2020 年 2月 29 日随笔档案 - lililili——

2020年2月29日

摘要：键值对RDD（pair RDD）是常见的数据类型用于聚合计算一般先通过初始的ETL（抽取，转化、装载）操作来将数据转化为键值对形式。 pair RDD的创建键值对就是我们常见的字典类型的数据如果数据格式本身就是键值对，在读取时直接返回由其键值对数据组成的pair RDD。如果将一个普通的R 阅读全文

posted @ 2020-02-29 22:47 lililili—— 阅读(321) 评论(0) 推荐(0)

第4篇： RDD学习

摘要： RDD（Resilient Distributed Dataset）弹性分布式数据集 Spark程序如何工作：即： step1: 从外部数据创建输入RDD step2: 使用诸如filter()这样的转换操作对RDD进行转换，以定义新的RDD step3：告诉Spark对需要重用的中间结果RDD 阅读全文

posted @ 2020-02-29 17:03 lililili—— 阅读(162) 评论(0) 推荐(0)

第4篇：RDD学习

摘要： RDD(Resilient Distributed Dataset)弹性分布式数据集 RDD 是Spark的元素集合在Spark中，对数据的操作四部走: step1: 从外部数据创建出输入RDD step2：使用诸如filter()这样的转换操作对RDD进行转换，以定义新的RDD step3: 告阅读全文

posted @ 2020-02-29 16:51 lililili—— 阅读(84) 评论(0) 推荐(0)

python的高级函数- lambda,filter,map,reduce

摘要：第一：匿名函数 lambda的理解我们定义一个函数 def f(x): return x*2 以上是显式定义了这样一个函数，如果想隐式定义：常常和filter,map,reduce等函数结合使用第二： filter函数的理解 filter()函数用于过滤序列，是python的内置函数语法阅读全文

posted @ 2020-02-29 12:33 lililili—— 阅读(143) 评论(0) 推荐(0)

pyspark错误记录1: Py4JJavaError

摘要：错误代码：完整错误信息为： Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.hadoop.mapred.Inva 阅读全文

posted @ 2020-02-29 12:03 lililili—— 阅读(2799) 评论(0) 推荐(0)

第3篇：pyspark中启动jupyter notebook

摘要：环境：win10 这里介绍了在spark环境下如何通过shell来打开python和scala 目标：由于我擅长python语言，jupyter notebook 是我比较熟悉的编辑器（由于其方便的单元测试，可以很好的进行结果展示）所以，我想在pyspark环境下启动jupyter notebo 阅读全文

posted @ 2020-02-29 11:29 lililili—— 阅读(706) 评论(0) 推荐(0)

不知名

公告