spark - 随笔分类 - __lay

十二、spark MLlib的scala示例

摘要：简介 spark MLlib官网：http://spark.apache.org/docs/latest/ml-guide.html mllib是spark core之上的算法库，包含了丰富的机器学习的一系列算法。你可以通过简单的API来构建算法模型，然后利用模型来进行预测分析推荐之类的。它包含了阅读全文

posted @ 2018-12-10 23:33 __lay 阅读(1755) 评论(0) 推荐(0)

十一、spark SQL的scala示例

摘要：简介 spark SQL官网：http://spark.apache.org/docs/latest/sql-programming-guide.html sparkSQL是构建在sparkCore之上的组件，用于处理结构化的数据。它将数据抽象为DataFrame并提供丰富的API，并且sparkS 阅读全文

posted @ 2018-12-09 22:18 __lay 阅读(3907) 评论(0) 推荐(0)

十、spark graphx的scala示例

摘要：简介 spark graphx官网：http://spark.apache.org/docs/latest/graphx-programming-guide.html#overview spark graphx是基于spark core之上的一个图计算组件，graphx扩展了spark RDD，是s 阅读全文

posted @ 2018-12-09 21:26 __lay 阅读(1294) 评论(0) 推荐(0)

九、sparkStream的scala示例

摘要：简介 sparkStream官网：http://spark.apache.org/docs/latest/streaming-programming-guide.html#overview sparkStream是构建在spark core之上的实时流处理框架，它支持很多的数据源，如：你可以从ka 阅读全文

posted @ 2018-12-08 22:58 __lay 阅读(467) 评论(0) 推荐(0)

八、window搭建spark + IDEA开发环境

摘要：本文将简单搭建一个spark的开发环境，如下： 1）操作系统：window os 2）IDEA开发工具以及scala插件（IDEA和插件版本要对应）： 2-1）IDEA2018.2.1：https://www.jetbrains.com/ 2-2）scala-intellij-bin-2018.2. 阅读全文

posted @ 2018-12-04 13:21 __lay 阅读(2344) 评论(0) 推荐(0)

七、spark核心数据集RDD

摘要：简介 spark RDD操作具体参考官网：http://spark.apache.org/docs/latest/rdd-programming-guide.html#overview RDD全称叫做Resilient Distributed Datasets，直译为弹性分布式数据集，是spark中阅读全文

posted @ 2018-12-02 23:08 __lay 阅读(1124) 评论(0) 推荐(0)

六、yarn运行模式

摘要：简介 spark的yarn运行模式根据Driver在集群中的位置分成两种： 1）yarn-client 客户端模式 2）yarn-cluster 集群模式 yarn模式和standalone模式不同，standalone模式需要启动spark独立集群，这样SparkContext才能与Master进阅读全文

posted @ 2018-12-02 22:29 __lay 阅读(2094) 评论(0) 推荐(0)

五、standalone运行模式

摘要：在上文中我们知道spark的集群主要有三种运行模式standalone、yarn、mesos，其中常被使用的是standalone和yarn，本文了解一下什么是standalone运行模式，它的运行流程是怎么样的。简介 standalone模式，是spark自己实现的，它是一个资源调度框架。这里我阅读全文

posted @ 2018-12-02 18:52 __lay 阅读(15198) 评论(0) 推荐(1)

四、spark集群架构

摘要：spark集群架构官方文档：http://spark.apache.org/docs/latest/cluster-overview.html 集群架构我们先看这张图这张图把spark架构拆分成了两块内容： 1）spark应用程序：即左边的DriverProgram这块; 2）spark 集群：阅读全文

posted @ 2018-12-01 01:32 __lay 阅读(1587) 评论(0) 推荐(1)

三、spark简介

摘要：一、简介 spark的官网：http://spark.apache.org/ spark解决了什么问题？我们都知道hadoop，hadoop以一个非常容易使用的编程模型解决了大数据的两大难题： 1）分布式存储hdfs； 2）分布式计算mapReduce；但是hadoop也存在着一些问题，最主要的阅读全文

posted @ 2018-12-01 00:42 __lay 阅读(501) 评论(0) 推荐(1)

二、spark SQL交互scala操作示例

摘要：一、安装spark spark SQL是spark的一个功能模块，所以我们事先要安装配置spark，参考： https://www.cnblogs.com/lay2017/p/10006935.html 二、数据准备演示操作将从一个类似json文件里面读取数据作为数据源，并初始化为datafram 阅读全文

posted @ 2018-11-23 16:43 __lay 阅读(1591) 评论(0) 推荐(0)

一、spark单机安装

摘要：如果要全面的使用spark，你可能要安装如JDK，scala，hadoop等好些东西。可有时候我们只是为了简单地安装和测试来感受一下spark的使用，并不需要那么全面。对于这样的需要，我们其实只要安装好JDK，然后下载配置spark，两步即可。本文选择： 1、centos 2、JDK1.8 3、s 阅读全文

posted @ 2018-11-23 13:05 __lay 阅读(950) 评论(0) 推荐(0)

随笔分类 - spark

公告