摘要:
我们的数据从哪来? 互联网行业:网站、APP、系统(交互系统)。 传统行业:电信、上网、打电话、发短信等等。 数据源:网站、APP。 等等,这些用户行为都回向我们的后台发送请求各种各样的请求,和进行各种逻辑交互、交易和结账等等。 请求转发 网站/APP会发送请求到后台服务器,通常会有Nginx接受请 阅读全文
posted @ 2018-11-25 23:52
自由与宁静
阅读(1599)
评论(0)
推荐(0)
摘要:
combineByKey(crateCombiner,mergeValue,mergeCombiners,partitioner) 最常用的基于Key的聚合函数,返回的类型可以和输入的类型不一样 许多基于key的聚合函数都用到了它,例如说groupByKey() 参数解释 遍历partition中的 阅读全文
posted @ 2018-11-25 17:24
自由与宁静
阅读(281)
评论(0)
推荐(0)
摘要:
创建KeyValue对RDDs 使用函数map,返回keyvalue对 例如,包含数行数据的RDD,那每行的第一个单词作为keys。 sparl.txt中的内容如下: hello ! hello world hello spark 常见的操作: 阅读全文
posted @ 2018-11-25 16:47
自由与宁静
阅读(205)
评论(0)
推荐(0)
摘要:
Action介绍 在RDD上计算出来一个结果 把结果返回给driver program或保存在文件系统,count(),save 常用的Action reduce() 接收一个函数,作用在RDD两个类型相同的元素上,返回新元素。 可以实现,RDD中元素的累加,计数,和其它类型的聚集操作。 举例: c 阅读全文
posted @ 2018-11-25 16:21
自由与宁静
阅读(658)
评论(0)
推荐(0)
摘要:
逐元素Transformation map() map()接收函数,把函数应用到RDD的每个元素,返回新的RDD 举例: filter() filter接收函数,返回只包含满足filter()函数的元素的新RDD flatMap() 对每个输入元素,输出多个输出元素。 flat是压扁的意思,将RDD 阅读全文
posted @ 2018-11-25 16:15
自由与宁静
阅读(316)
评论(0)
推荐(0)
摘要:
Scala的变量声明 在Scala创建变量的时候,必须使用val或者var val,变量值不可修改,一旦分配不能重新指向别的值 var,分配后,可重新指向类型相同的值 举例 Scala的匿名函数和类型推断 定义一个匿名函数,接收一个line参数, 使用line这个String类型变量上的contai 阅读全文
posted @ 2018-11-25 15:25
自由与宁静
阅读(375)
评论(0)
推荐(0)
摘要:
什么是RDDS? RDDS即Resilient distributed datasets(弹性分布式数据集)。 Spark中,所有计算都是通过RDDs的创建,转换,操作完成的。 一个RDD是一个不可改变的分布式集合对象。 Driver Program 包含程序的main方法,RDDs的定义和操作。 阅读全文
posted @ 2018-11-25 15:13
自由与宁静
阅读(1320)
评论(0)
推荐(0)

浙公网安备 33010602011771号