Spark API
    
            
摘要:Spark API 创建spark环境 方法一:SparkConf //spark环境配置对象 val conf = new SparkConf() //设置spark任务的名称 conf.setAppName("Demo1WordCount") //设置spark运行模式,local:本地运行 c
        
阅读全文
                posted @ 
2022-07-20 11:12 
+1000
        
阅读(408) 
         
        推荐(0)     
             
            
            
    Spark WordCount
    
            
摘要:WordCount基本流程和spark实现 ####基本流程 1.创建spark环境 2.创建创建spark上下文对象,也就是spark写代码的入口 3.读取文件中的数据 4.首先将每一行数据展开,让每一个word单独一行 5.将word进行分组 6.对word出现的次数分别统计 7.将结果保存在新
        
阅读全文
                posted @ 
2022-07-13 20:16 
+1000
        
阅读(57) 
         
        推荐(0)     
             
            
            
    spark RDD
    
            
摘要:什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集 RDD是Spark中的抽象数据结构类型,Spark中最基本的数据抽象,实现了以操作本地集合的方式来操作分布式数据集的抽象实现, 它代表一个不可变、可分区、里面的元素可并行计算的集合。 RDD具有数
        
阅读全文
                posted @ 
2022-07-13 20:02 
+1000
        
阅读(49) 
         
        推荐(0)     
             
            
            
    spark与MapReduce的区别
    
            
摘要:spark与MapReduce的区别 内存和磁盘的区别 spark最核心的概念是RDD(弹性分布式数据集),它的所有RDD在并行运算过程程中,可以做到数据共享,也就是可以重复使用mr在计算过程中 mapr:一次数据过程包含从共享文件系统读取数据、进行计算、完成计算、写入计算结果到共享存储中,在计算过
        
阅读全文
                posted @ 
2022-07-11 21:57 
+1000
        
阅读(1382) 
         
        推荐(0)