随笔分类 -  Spark

摘要:idea 远程提交spark作业 java.io.IOException: Failed to connect to DESKTOP-H 1 报错日志 Exception in thread "main" java.lang.reflect.UndeclaredThrowableException 阅读全文
posted @ 2021-12-17 16:11 自由与宁静 阅读(684) 评论(0) 推荐(0)
摘要:https://zhuanlan.zhihu.com/p/23141509 https://blog.csdn.net/u011470552/article/details/54564636 https://www.cnblogs.com/Mrwan/p/7380574.html spark sub 阅读全文
posted @ 2018-12-17 11:13 自由与宁静 阅读(888) 评论(0) 推荐(0)
摘要:数据来源 答:网站/app。其中非常重要的一个东西叫做埋点,在网站/app的哪个页面上发生哪些操作时,前端的代码(JS、Android/IOS)就通过网络请求(Ajax、socket)向后端发送指定格式的日志数据。 阅读全文
posted @ 2018-11-26 13:57 自由与宁静 阅读(556) 评论(0) 推荐(0)
摘要:我们的数据从哪来? 互联网行业:网站、APP、系统(交互系统)。 传统行业:电信、上网、打电话、发短信等等。 数据源:网站、APP。 等等,这些用户行为都回向我们的后台发送请求各种各样的请求,和进行各种逻辑交互、交易和结账等等。 请求转发 网站/APP会发送请求到后台服务器,通常会有Nginx接受请 阅读全文
posted @ 2018-11-25 23:52 自由与宁静 阅读(1596) 评论(0) 推荐(0)
摘要:combineByKey(crateCombiner,mergeValue,mergeCombiners,partitioner) 最常用的基于Key的聚合函数,返回的类型可以和输入的类型不一样 许多基于key的聚合函数都用到了它,例如说groupByKey() 参数解释 遍历partition中的 阅读全文
posted @ 2018-11-25 17:24 自由与宁静 阅读(280) 评论(0) 推荐(0)
摘要:创建KeyValue对RDDs 使用函数map,返回keyvalue对 例如,包含数行数据的RDD,那每行的第一个单词作为keys。 sparl.txt中的内容如下: hello ! hello world hello spark 常见的操作: 阅读全文
posted @ 2018-11-25 16:47 自由与宁静 阅读(204) 评论(0) 推荐(0)
摘要:Action介绍 在RDD上计算出来一个结果 把结果返回给driver program或保存在文件系统,count(),save 常用的Action reduce() 接收一个函数,作用在RDD两个类型相同的元素上,返回新元素。 可以实现,RDD中元素的累加,计数,和其它类型的聚集操作。 举例: c 阅读全文
posted @ 2018-11-25 16:21 自由与宁静 阅读(658) 评论(0) 推荐(0)
摘要:逐元素Transformation map() map()接收函数,把函数应用到RDD的每个元素,返回新的RDD 举例: filter() filter接收函数,返回只包含满足filter()函数的元素的新RDD flatMap() 对每个输入元素,输出多个输出元素。 flat是压扁的意思,将RDD 阅读全文
posted @ 2018-11-25 16:15 自由与宁静 阅读(315) 评论(0) 推荐(0)
摘要:Scala的变量声明 在Scala创建变量的时候,必须使用val或者var val,变量值不可修改,一旦分配不能重新指向别的值 var,分配后,可重新指向类型相同的值 举例 Scala的匿名函数和类型推断 定义一个匿名函数,接收一个line参数, 使用line这个String类型变量上的contai 阅读全文
posted @ 2018-11-25 15:25 自由与宁静 阅读(373) 评论(0) 推荐(0)
摘要:什么是RDDS? RDDS即Resilient distributed datasets(弹性分布式数据集)。 Spark中,所有计算都是通过RDDs的创建,转换,操作完成的。 一个RDD是一个不可改变的分布式集合对象。 Driver Program 包含程序的main方法,RDDs的定义和操作。 阅读全文
posted @ 2018-11-25 15:13 自由与宁静 阅读(1318) 评论(0) 推荐(0)