Spark - 随笔分类 - 自由与宁静

idea 远程提交spark作业 java.io.IOException: Failed to connect to DESKTOP-H

摘要：idea 远程提交spark作业 java.io.IOException: Failed to connect to DESKTOP-H 1 报错日志 Exception in thread "main" java.lang.reflect.UndeclaredThrowableException 阅读全文

posted @ 2021-12-17 16:11 自由与宁静阅读(698) 评论(0) 推荐(0)

利用IntelliJ IDEA与Maven开发scala程序，并打包提交到spark集群

摘要：https://zhuanlan.zhihu.com/p/23141509 https://blog.csdn.net/u011470552/article/details/54564636 https://www.cnblogs.com/Mrwan/p/7380574.html spark sub 阅读全文

posted @ 2018-12-17 11:13 自由与宁静阅读(889) 评论(0) 推荐(0)

用户行为分析之实时数据采集

摘要：数据来源答：网站/app。其中非常重要的一个东西叫做埋点，在网站/app的哪个页面上发生哪些操作时，前端的代码（JS、Android/IOS）就通过网络请求（Ajax、socket）向后端发送指定格式的日志数据。阅读全文

posted @ 2018-11-26 13:57 自由与宁静阅读(557) 评论(0) 推荐(0)

用户行为分析之离线数据采集

摘要：我们的数据从哪来？互联网行业：网站、APP、系统（交互系统）。传统行业：电信、上网、打电话、发短信等等。数据源：网站、APP。等等，这些用户行为都回向我们的后台发送请求各种各样的请求，和进行各种逻辑交互、交易和结账等等。请求转发网站/APP会发送请求到后台服务器，通常会有Nginx接受请阅读全文

posted @ 2018-11-25 23:52 自由与宁静阅读(1599) 评论(0) 推荐(0)

RDDs之combineByKey()

摘要：combineByKey(crateCombiner,mergeValue,mergeCombiners,partitioner) 最常用的基于Key的聚合函数，返回的类型可以和输入的类型不一样许多基于key的聚合函数都用到了它，例如说groupByKey() 参数解释遍历partition中的阅读全文

posted @ 2018-11-25 17:24 自由与宁静阅读(281) 评论(0) 推荐(0)

KeyValue对RDDs

摘要：创建KeyValue对RDDs 使用函数map，返回keyvalue对例如，包含数行数据的RDD，那每行的第一个单词作为keys。 sparl.txt中的内容如下： hello ! hello world hello spark 常见的操作：阅读全文

posted @ 2018-11-25 16:47 自由与宁静阅读(205) 评论(0) 推荐(0)

RDD基本操作之Action

摘要：Action介绍在RDD上计算出来一个结果把结果返回给driver program或保存在文件系统，count(),save 常用的Action reduce() 接收一个函数，作用在RDD两个类型相同的元素上，返回新元素。可以实现，RDD中元素的累加，计数，和其它类型的聚集操作。举例： c 阅读全文

posted @ 2018-11-25 16:21 自由与宁静阅读(658) 评论(0) 推荐(0)

RDDs基本操作之Transformations

摘要：逐元素Transformation map() map()接收函数，把函数应用到RDD的每个元素，返回新的RDD 举例： filter() filter接收函数，返回只包含满足filter()函数的元素的新RDD flatMap() 对每个输入元素，输出多个输出元素。 flat是压扁的意思，将RDD 阅读全文

posted @ 2018-11-25 16:15 自由与宁静阅读(316) 评论(0) 推荐(0)

Spark学习之Scala的基础知识

摘要：Scala的变量声明在Scala创建变量的时候，必须使用val或者var val，变量值不可修改，一旦分配不能重新指向别的值 var，分配后，可重新指向类型相同的值举例 Scala的匿名函数和类型推断定义一个匿名函数，接收一个line参数，使用line这个String类型变量上的contai 阅读全文

posted @ 2018-11-25 15:25 自由与宁静阅读(375) 评论(0) 推荐(0)

Spark学习之RDDs介绍

摘要：什么是RDDS？ RDDS即Resilient distributed datasets（弹性分布式数据集）。 Spark中，所有计算都是通过RDDs的创建，转换，操作完成的。一个RDD是一个不可改变的分布式集合对象。 Driver Program 包含程序的main方法，RDDs的定义和操作。阅读全文

posted @ 2018-11-25 15:13 自由与宁静阅读(1320) 评论(0) 推荐(0)

自由与宁静

人生就像，，就像一场三万多天的体验之旅。。

随笔分类 - Spark

公告