日月的弯刀  
Where Amazing Happens!

随笔分类 -  Spark

  • UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现
    摘要:UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现 测试数据 java代码 1 package com.hzf.spark.study; 2 3 import java.util.Map; 4 import java.util.Set; 5 6 impo 阅读全文
    posted @ 2017-03-05 23:38 日月的弯刀 阅读(639) 评论(0) 推荐(0)
  • UserView--第一种方式set去重,基于Spark算子的java代码实现
    摘要:UserView--第一种方式set去重,基于Spark算子的java代码实现 <!--more--> 测试数据 java代码 package com.hzf.spark.study; import java.util.HashSet; import java.util.Iterator; impo 阅读全文
    posted @ 2017-03-05 23:24 日月的弯刀 阅读(449) 评论(0) 推荐(0)
  • Spark_总结四
    摘要:转载请标明出处http://www.cnblogs.com/haozhengfei/p/22bba3b1ef90cbfaf073eb44349c0757.html Spark_总结四 1.Spark SQL Spark SQL 和 Hive on Spark 两者的区别?<!--more--> sp 阅读全文
    posted @ 2017-03-05 16:49 日月的弯刀 阅读(4812) 评论(0) 推荐(0)
  • Spark应用_PageView_UserView_HotChannel
    摘要:Spark应用_PageView_UserView_HotChannel 一、PV <!--more--> 对某一个页面的访问量,在页面中进行刷新一次就是一次pv PV {p1, (u1,u2,u3,u1,u2,u4…)} 对同一个页面的浏览量进行统计,用户可以重复 1 2 3 4 5 6 7 8 阅读全文
    posted @ 2017-03-04 20:31 日月的弯刀 阅读(536) 评论(0) 推荐(0)
  • Spark_总结一
    摘要:Spark_总结一 1.Spark介绍 1.1什么是Spark? Apache Spark是一个开源的集群计算框架,使数据计算更快(高效运行,快速开发) <!--more--> 1.2Spark比Hadoop快的两个原因 第一,内存计算 第二,DAG(有向无环图) 2.Spark运行模式(四种 ) 阅读全文
    posted @ 2017-03-02 23:28 日月的弯刀 阅读(2948) 评论(1) 推荐(0)
  • Spark高可用集群搭建
    摘要:Spark高可用集群搭建 node1 node2 node3 1.node1修改spark-env.sh,注释掉hadoop(就不用开启Hadoop集群了),添加如下语句 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKE 阅读全文
    posted @ 2017-03-02 23:08 日月的弯刀 阅读(1659) 评论(0) 推荐(0)
  • Spark集群搭建_YARN
    摘要:Spark集群搭建_YARN 前提:参考Spark集群搭建_Standalone 1.修改spark中conf中的spark-env.sh <!--more--> 2.Spark on YARN--不需要启动Spark集群,因为已经在spark的配置文件中配置了hadoop的目录 2.Spark o 阅读全文
    posted @ 2017-03-02 23:06 日月的弯刀 阅读(897) 评论(0) 推荐(0)
  • Spark集群搭建_Standalone
    摘要:转载请标明出处http://www.cnblogs.com/haozhengfei/p/f421e517457b01f6db36d934bfab5ac6.html Spark集群搭建_Standalone Driver: node1 Worker: node2 Worker: node3 1.下载安 阅读全文
    posted @ 2017-03-02 22:58 日月的弯刀 阅读(1109) 评论(0) 推荐(0)