会员
周边
众包
新闻
博问
闪存
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Gong小阳
博客园
首页
新随笔
联系
订阅
管理
2018年3月2日
spark安装和提交程序测试
摘要: 1. 安装 1.1. 下载spark安装包 下载地址spark官网:http://spark.apache.org/downloads.html 这里我们使用 spark-1.6.2-bin-hadoop2.6版本. 1.2. 规划安装目录 /opt/bigdata 1.3. 解压安装包 tar -
阅读全文
posted @ 2018-03-02 17:20 龚小阳
阅读(3334)
评论(1)
推荐(1)
2018年1月9日
Spark基础
摘要: Spark基础 ① 快--基于内存的运算 ② 易用--支持java,python和Scala的API,shell交互式运用,还支持超过80种高级算法 ③ 通用--spark提供了统一的解决方案,spark用于批处理,交互式查询spark sql, 实时流处理spark streaming,机器学习s
阅读全文
posted @ 2018-01-09 00:24 龚小阳
阅读(243)
评论(0)
推荐(0)
2017年12月25日
hadoop中的分布式缓存——DistributedCache
摘要: 分布式缓存一个最重要的应用就是在进行join操作的时候,如果一个表很大,另一个表很小很小,我们就可以将这个小表进行广播处理,即每个计算节点上都存一份,然后进行map端的连接操作,经过我的实验验证,这种情况下处理效率大大高于一般的reduce端join,广播处理就运用到了分布式缓存的技术。 Distr
阅读全文
posted @ 2017-12-25 00:28 龚小阳
阅读(718)
评论(0)
推荐(0)
2017年12月24日
Spark简介
摘要: 1.Spark集群部署后,需要在主节点和从节点分贝启动Master进行和Worker进程,对整个集群进行控制 2.在一个Spark应用的执行过程中,Driver和Worker是2个重要角色 3.Driver程序是应用逻辑执行的起点,负责作业的调度,即Task任务的分发,而多个Worker用来管理计算
阅读全文
posted @ 2017-12-24 16:23 龚小阳
阅读(217)
评论(0)
推荐(0)
公告