摘要:        
问题描述:将来数据量可能很大,所以ip规则肯定是存储在HDFS中的,这样在读取的时候根据切片数量,会启动相应的Task,但是数据切片中就可能不会包含所有的ip规则,然后你处理的log文件获取的ip就找不到对应的省份了。这样就出现了问题。所以现在需要每个Task都会获取到全部的ip规则。但是ip规则的    阅读全文
posted @ 2018-10-17 22:01
BoomOoO
阅读(1779)
评论(0)
推荐(0)
        
            
        
        
摘要:        
1、scalaWordCount package com._51doit.spark.day1import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object ScalaWorldCount     阅读全文
posted @ 2018-10-17 11:48
BoomOoO
阅读(1618)
评论(0)
推荐(0)
        
            
        
        
摘要:        
def ip2Long(ip: String): Long = { val fragments = ip.split("[.]") var ipNum = 0L for (i <- 0 until fragments.length) { ipNum = fragments(i).toLong | i    阅读全文
posted @ 2018-10-17 11:29
BoomOoO
阅读(195)
评论(0)
推荐(0)
        
            
        
        
摘要:        
函数在driver端定义。在executor端被调用执行    阅读全文
posted @ 2018-10-17 11:27
BoomOoO
阅读(114)
评论(0)
推荐(0)
        
            
        
        
摘要:        
spark的运算操作有两种类型:分别是Transformation和Action,区别如下: Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的。 Action:代表是一个具体的行为,返回的值非RDD类型,可以一个object    阅读全文
posted @ 2018-10-17 09:51
BoomOoO
阅读(746)
评论(0)
推荐(0)
        

 浙公网安备 33010602011771号
浙公网安备 33010602011771号