摘要: 1. 安装 1.1. 下载spark安装包 下载地址spark官网:http://spark.apache.org/downloads.html 这里我们使用 spark-1.6.2-bin-hadoop2.6版本. 1.2. 规划安装目录 /opt/bigdata 1.3. 解压安装包 tar - 阅读全文
posted @ 2018-03-02 17:20 龚小阳 阅读(3334) 评论(1) 推荐(1)
摘要: Spark基础 ① 快--基于内存的运算 ② 易用--支持java,python和Scala的API,shell交互式运用,还支持超过80种高级算法 ③ 通用--spark提供了统一的解决方案,spark用于批处理,交互式查询spark sql, 实时流处理spark streaming,机器学习s 阅读全文
posted @ 2018-01-09 00:24 龚小阳 阅读(243) 评论(0) 推荐(0)
摘要: 分布式缓存一个最重要的应用就是在进行join操作的时候,如果一个表很大,另一个表很小很小,我们就可以将这个小表进行广播处理,即每个计算节点上都存一份,然后进行map端的连接操作,经过我的实验验证,这种情况下处理效率大大高于一般的reduce端join,广播处理就运用到了分布式缓存的技术。 Distr 阅读全文
posted @ 2017-12-25 00:28 龚小阳 阅读(718) 评论(0) 推荐(0)
摘要: 1.Spark集群部署后,需要在主节点和从节点分贝启动Master进行和Worker进程,对整个集群进行控制 2.在一个Spark应用的执行过程中,Driver和Worker是2个重要角色 3.Driver程序是应用逻辑执行的起点,负责作业的调度,即Task任务的分发,而多个Worker用来管理计算 阅读全文
posted @ 2017-12-24 16:23 龚小阳 阅读(217) 评论(0) 推荐(0)
互联网技术交流群