上一页 1 ··· 3 4 5 6 7 8 9 10 下一页
摘要: 一、基础核心概念 1、StreamingContext详解 (一) 有两种创建StreamingContext的方式: val conf = new SparkConf().setAppName(appName).setMaster(master); val ssc = new StreamingC 阅读全文
posted @ 2017-03-29 21:24 凌-风 阅读(1955) 评论(0) 推荐(0)
摘要: 实时计算介绍 Spark Streaming, 其实就是一种Spark提供的, 对于大数据, 进行实时计算的一种框架。 它的底层, 其实, 也是基于我们之前讲解的Spark Core的。 基本的计算模型, 还是基于内存的大数据实时计算模型。 而且, 它的底层的组件或者叫做概念, 其实还是最核心的RD 阅读全文
posted @ 2017-03-29 20:23 凌-风 阅读(608) 评论(0) 推荐(0)
摘要: yarn模式分为两种模式: 一、Yarn-cluster模式 1、通过spark-submit提交spark jar包(Application),与RM进行通信请求启动AM 2、RM接收到请求之后,会在一个相对空闲的nodemanager中分配Container,然后再此Container中启动AM 阅读全文
posted @ 2017-03-27 17:21 凌-风 阅读(819) 评论(0) 推荐(0)
摘要: 面试问的比较多的 JAVA:进程、线程、多线程、反射、IO、集合、网络编程、接口、类与对象 Linux:shell脚本、AWK与sed指令,其他常用指令 hadoop:HDFS读写机制、mapreduce的执行流程、shuffle的执行流程、yarn平台的执行流程、hive的架构、hive中的各种j 阅读全文
posted @ 2017-03-27 10:09 凌-风 阅读(411) 评论(0) 推荐(0)
摘要: 一、Spark集群基础概念 将DAG划分为多个stage阶段,遵循以下原则: 1、将尽可能多的窄依赖关系的RDD划为同一个stage阶段。 2、当遇到shuffle操作,就意味着上一个stage阶段结束,下一个stage阶段开始 关于RDD中的分区,在默认情况下(也就是未指明分区数的情况) 1、如果 阅读全文
posted @ 2017-03-24 17:22 凌-风 阅读(967) 评论(0) 推荐(0)
摘要: 一、RDD算子补充 1、mapPartitions mapPartitions的输入函数作用于每个分区, 也就是把每个分区中的内容作为整体来处理。 (map是把每一行) mapPartitions一次处理一个分区的所有数据,而map算子一次处理分区中的一条数据,所以mapPartitions处理数据 阅读全文
posted @ 2017-03-24 12:04 凌-风 阅读(925) 评论(0) 推荐(0)
摘要: 一、常用Actoin算子 (reduce 、collect 、count 、take 、saveAsTextFile 、 countByKey 、foreach ) collect:从集群中将所有的计算结果获取到本地内存,然后展示 take:从集群中将一部分的计算结果获取到本地内存,然后展示 rdd 阅读全文
posted @ 2017-03-23 12:03 凌-风 阅读(974) 评论(0) 推荐(0)
摘要: map 产生的键值对是tupple, split分隔出来的是数组 一、常用Transformation算子 (map 、flatMap 、filter 、groupByKey 、reduceByKey 、sortByKey 、join 、cogroup ) JAVA: scala: 2、join() 阅读全文
posted @ 2017-03-21 18:28 凌-风 阅读(1993) 评论(0) 推荐(0)
摘要: 一、Spark-Shell交互式工具 1、Spark-Shell交互式工具 Spark-Shell提供了一种学习API的简单方式, 以及一个能够交互式分析数据的强大工具。 在Scala语言环境下或Python语言环境下均可使用。 启动Spark-Shell  ./bin/spark-shell 本 阅读全文
posted @ 2017-03-20 17:03 凌-风 阅读(2151) 评论(0) 推荐(0)
摘要: 安装在集群上的spark版本:spark-1.6.3-bin-hadoop2.6.tgz scala版本:scala-2.10.4.tgz 1、spark是什么 Spark, 是一种通用的大数据计算框架, 正如传统大数据技术Hadoop的MapReduce、 Hive引擎, 以及Storm流式实时计 阅读全文
posted @ 2017-03-20 12:00 凌-风 阅读(7096) 评论(0) 推荐(0)
上一页 1 ··· 3 4 5 6 7 8 9 10 下一页