Spark - 随笔分类 - Uncle_Nucky

《Spark快速大数据分析》

摘要：【RDD】不可变的分布式对象集合。Spark使用谱系图(lineage graph)来记录不同 RDD 之间的依赖关系。每当我们调用一个新的行动操作时，整个 RDD 都会从头开始计算。要避免这种低效的行为，用户可以将中间结果持久化。【惰性求值】惰性计算RDD：Spark 了解完整的转化操作链，只阅读全文

posted @ 2016-11-29 16:23 Uncle_Nucky

浅谈 Scala 中下划线的用途

摘要：https://my.oschina.net/leejun2005/blog/405305 阅读全文

posted @ 2016-11-29 12:50 Uncle_Nucky

Spark SQL更改表结构

摘要：使用SparkSQL进行数据分析时，改变DataFrame中字段的类型，更改SparkSQL的表结构。定义一个函数，将表内的 Double 类型转为 Long 类型：val toLong = udf[Long, Double](_.toLong) 使用 withColumn 变换字段类型：val 阅读全文

posted @ 2016-11-28 17:30 Uncle_Nucky 阅读(1537) 评论(0) 推荐(0)

Parquet列式存储格式

摘要：Parquet列式存储 Apache Parquet是Hadoop生态系统中的列式存储格式，面向分析型业务，与数据处理框架、数据模型、编程语言无关。 ● 优势降低存储空间：按列存，能够更好地压缩数据，因为一列的数据一般都是同质的（homogenous）提高IO效率：扫描（遍历/scan）的时候，可以阅读全文

posted @ 2016-11-24 17:23 Uncle_Nucky 阅读(5036) 评论(0) 推荐(1)

Spark job 的执行流程简介

摘要：Spark job 在集群中如何被调度执行 DAG: 即 Directed Acyclic Graph，有向无环图，这是一个图论中的概念。如果一个有向图无法从某个顶点出发经过若干条边回到该点，则这个图是一个有向无环图。 Job：我们知道，Spark 的计算操作是 lazy 执行的，只有当碰到一个动作阅读全文

posted @ 2016-11-23 22:33 Uncle_Nucky 阅读(371) 评论(0) 推荐(0)

Scala语法

摘要：Scala 基础语法 | 菜鸟教程http://www.runoob.com/scala/scala-basic-syntax.html——————————————————————————————————————————————————Scala 是一门多范式（multi-paradigm）的编程语阅读全文

posted @ 2016-11-18 16:46 Uncle_Nucky

WordCount Job执行（源码剖析）

摘要：http://www.mamicode.com/info-detail-976861.html sc.textFile("hdfs://...").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect val hadoopRDD0 = 阅读全文

posted @ 2016-11-17 22:18 Uncle_Nucky 阅读(157) 评论(0) 推荐(0)

海量日志处理_方案

摘要：实时数据处理方案FlumeKafka 日志收集Spark Streaming 实时处理将数据写入到kafka持久化存储；Spark Streaming消费kafka数据，业务级别分析；将分析结果写入HBase或者HDFS。业界《百度海量日志分析架构及处理》对于互联网企业来说，最有价值的数据，往往阅读全文

posted @ 2016-11-17 11:20 Uncle_Nucky 阅读(2587) 评论(0) 推荐(1)

Spark安装

摘要：本文搭建环境为：Mac + Parallel Desktop + CentOS7 + JDK7 + Hadoop2.6 + Scala2.10.4 + IDEA14.0.5 —————————————————————————————————————————————————— 一、CentOS安装 ■ 阅读全文

posted @ 2016-11-17 08:45 Uncle_Nucky 阅读(676) 评论(0) 推荐(0)

Uncle Nucky

随笔分类 - Spark