会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
蒋源德
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
10
···
16
下一页
2015年5月27日
Spark(十一) -- Mllib API编程 线性回归、KMeans、协同过滤演示
摘要: 本文测试的Spark版本是1.3.1在使用Spark的机器学习算法库之前,需要先了解Mllib中几个基础的概念和专门用于机器学习的数据类型特征向量Vector:Vector的概念是和数学中的向量是一样的,通俗的看其实就是一个装着Double数据的数组 Vector分为两种,分别是密...
阅读全文
posted @ 2015-05-27 19:33 蒋源德
阅读(371)
评论(0)
推荐(0)
2015年5月25日
Spark(十) -- Spark Streaming API编程
摘要: 本文测试的Spark版本是1.3.1Spark Streaming编程模型:第一步: 需要一个StreamingContext对象,该对象是Spark Streaming操作的入口 ,而构建一个StreamingContext对象需要两个参数: 1、SparkConf对象:该对象...
阅读全文
posted @ 2015-05-25 19:45 蒋源德
阅读(433)
评论(0)
推荐(0)
2015年5月24日
Spark(九) -- SparkSQL API编程
摘要: 本文测试的Spark版本是1.3.1Text文本文件测试一个简单的person.txt文件内容为:JChubby,13Looky,14LL,15分别是Name和Age在Idea中新建Object,原始代码如下:object TextFile{ def main(args:A...
阅读全文
posted @ 2015-05-24 23:15 蒋源德
阅读(311)
评论(0)
推荐(0)
Spark(八) -- 使用Intellij Idea搭建Spark开发环境
摘要: Intellij Idea下载地址: 官方下载 选择右下角的Community Edition版本下载安装即可本文中使用的是windows系统 环境为: jdk1.6.0_45 scala2.10.5在网上下载jdk和scala的安装包双击运行安装即可注意:如果之后要将scala文...
阅读全文
posted @ 2015-05-24 20:07 蒋源德
阅读(970)
评论(0)
推荐(0)
2015年5月18日
Spark(七) -- Scala快速入门
摘要: Scala作为Spark的开发语言,想要成为Spark高手,精通Scala是必须要走的一条路 然后一门语言并不是你想精通就能够精通的,更何况是Scala这种面向对象又面向函数的编程语言,个人觉得其学习的门槛会比C#,Java等面向对象语言要高 所以,这篇文章是建立在有一点编程语言知...
阅读全文
posted @ 2015-05-18 22:55 蒋源德
阅读(287)
评论(0)
推荐(0)
2015年5月17日
Spark(六) -- Spark计算模型
摘要: 整个Spark框架都是基于RDD算子来进行计算的。What is RDD? Resilient Distributed Dataset(RDD),分布式弹性数据集,是Spark上的一个核心抽象 表示用于并行计算的,不可修改的,对数据集合进行分片的数据结构简单地,可以将RDD看成是S...
阅读全文
posted @ 2015-05-17 12:57 蒋源德
阅读(417)
评论(0)
推荐(1)
2015年5月16日
Spark(五) -- Spark Streaming介绍与基本执行过程
摘要: Spark Streaming作为Spark上的四大子框架之一,肩负着实时流计算的重大责任 而相对于另外一个当下十分流行的实时流计算处理框架Storm,Spark Streaming有何优点?又有何不足呢? 首先,对于Storm实时流处理惊人的低延迟性,Spark Streamin...
阅读全文
posted @ 2015-05-16 20:11 蒋源德
阅读(489)
评论(0)
推荐(0)
2015年5月14日
Spark(四) -- Spark工作机制
摘要: 一、应用执行机制一个应用的生命周期即,用户提交自定义的作业之后,Spark框架进行处理的一系列过程。在这个过程中,不同的时间段里,应用会被拆分为不同的形态来执行。1、应用执行过程中的基本组件和形态Driver: 运行在客户端或者集群中,执行Application的main方法并创建...
阅读全文
posted @ 2015-05-14 23:38 蒋源德
阅读(3404)
评论(1)
推荐(0)
Spark(三) -- Shark与SparkSQL
摘要: 首先介绍一下Shark的概念 Shark简单的说就是Spark上的Hive,其底层依赖于Hive引擎的 但是在Spark平台上,Shark的解析速度是Hive的几多倍 它就是Hive在Spark上的体现,并且是升级版,一个强大的数据仓库,并且是兼容Hive语法的下面给出一张来自网上...
阅读全文
posted @ 2015-05-14 21:46 蒋源德
阅读(782)
评论(0)
推荐(0)
2015年5月11日
Spark(二) -- Spark简单介绍
摘要: spark是什么? spark开源的类Hadoop MapReduce的通用的并行计算框架 spark基于map reduce算法实现的分布式计算 拥有Hadoop MapReduce所具有的优点 但不同于MapReduce的是Job中间输出和结果可以保存在内存中 从而不再需要读写...
阅读全文
posted @ 2015-05-11 20:52 蒋源德
阅读(434)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
10
···
16
下一页
公告