随笔分类 - Spark
摘要:idea 远程提交spark作业 java.io.IOException: Failed to connect to DESKTOP-H 1 报错日志 Exception in thread "main" java.lang.reflect.UndeclaredThrowableException
阅读全文
摘要:https://zhuanlan.zhihu.com/p/23141509 https://blog.csdn.net/u011470552/article/details/54564636 https://www.cnblogs.com/Mrwan/p/7380574.html spark sub
阅读全文
摘要:数据来源 答:网站/app。其中非常重要的一个东西叫做埋点,在网站/app的哪个页面上发生哪些操作时,前端的代码(JS、Android/IOS)就通过网络请求(Ajax、socket)向后端发送指定格式的日志数据。
阅读全文
摘要:我们的数据从哪来? 互联网行业:网站、APP、系统(交互系统)。 传统行业:电信、上网、打电话、发短信等等。 数据源:网站、APP。 等等,这些用户行为都回向我们的后台发送请求各种各样的请求,和进行各种逻辑交互、交易和结账等等。 请求转发 网站/APP会发送请求到后台服务器,通常会有Nginx接受请
阅读全文
摘要:combineByKey(crateCombiner,mergeValue,mergeCombiners,partitioner) 最常用的基于Key的聚合函数,返回的类型可以和输入的类型不一样 许多基于key的聚合函数都用到了它,例如说groupByKey() 参数解释 遍历partition中的
阅读全文
摘要:创建KeyValue对RDDs 使用函数map,返回keyvalue对 例如,包含数行数据的RDD,那每行的第一个单词作为keys。 sparl.txt中的内容如下: hello ! hello world hello spark 常见的操作:
阅读全文
摘要:Action介绍 在RDD上计算出来一个结果 把结果返回给driver program或保存在文件系统,count(),save 常用的Action reduce() 接收一个函数,作用在RDD两个类型相同的元素上,返回新元素。 可以实现,RDD中元素的累加,计数,和其它类型的聚集操作。 举例: c
阅读全文
摘要:逐元素Transformation map() map()接收函数,把函数应用到RDD的每个元素,返回新的RDD 举例: filter() filter接收函数,返回只包含满足filter()函数的元素的新RDD flatMap() 对每个输入元素,输出多个输出元素。 flat是压扁的意思,将RDD
阅读全文
摘要:Scala的变量声明 在Scala创建变量的时候,必须使用val或者var val,变量值不可修改,一旦分配不能重新指向别的值 var,分配后,可重新指向类型相同的值 举例 Scala的匿名函数和类型推断 定义一个匿名函数,接收一个line参数, 使用line这个String类型变量上的contai
阅读全文
摘要:什么是RDDS? RDDS即Resilient distributed datasets(弹性分布式数据集)。 Spark中,所有计算都是通过RDDs的创建,转换,操作完成的。 一个RDD是一个不可改变的分布式集合对象。 Driver Program 包含程序的main方法,RDDs的定义和操作。
阅读全文

浙公网安备 33010602011771号