随笔分类 - Spark
摘要:【RDD】不可变的分布式对象集合。Spark使用谱系图(lineage graph)来记录不同 RDD 之间的依赖关系。每当我们调用一个新的行动操作时,整个 RDD 都会从头开始计算。要避 免这种低效的行为,用户可以将中间结果持久化。 【惰性求值】惰性计算RDD:Spark 了解完整的转化操作链,只
阅读全文
posted @ 2016-11-29 16:23
Uncle_Nucky
摘要:https://my.oschina.net/leejun2005/blog/405305
阅读全文
posted @ 2016-11-29 12:50
Uncle_Nucky
摘要:使用SparkSQL进行数据分析时,改变DataFrame中字段的类型,更改SparkSQL的表结构。 定义一个函数,将表内的 Double 类型转为 Long 类型:val toLong = udf[Long, Double](_.toLong) 使用 withColumn 变换字段类型:val
阅读全文
摘要:Parquet列式存储 Apache Parquet是Hadoop生态系统中的列式存储格式,面向分析型业务,与数据处理框架、数据模型、编程语言无关。 ● 优势降低存储空间:按列存,能够更好地压缩数据,因为一列的数据一般都是同质的(homogenous)提高IO效率:扫描(遍历/scan)的时候,可以
阅读全文
摘要:Spark job 在集群中如何被调度执行 DAG: 即 Directed Acyclic Graph,有向无环图,这是一个图论中的概念。如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是一个有向无环图。 Job:我们知道,Spark 的计算操作是 lazy 执行的,只有当碰到一个动作
阅读全文
摘要:Scala 基础语法 | 菜鸟教程http://www.runoob.com/scala/scala-basic-syntax.html——————————————————————————————————————————————————Scala 是一门多范式(multi-paradigm)的编程语
阅读全文
posted @ 2016-11-18 16:46
Uncle_Nucky
摘要:http://www.mamicode.com/info-detail-976861.html sc.textFile("hdfs://...").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect val hadoopRDD0 =
阅读全文
摘要:实时数据处理方案FlumeKafka 日志收集Spark Streaming 实时处理 将数据写入到kafka持久化存储;Spark Streaming消费kafka数据,业务级别分析;将分析结果写入HBase或者HDFS。 业界《百度海量日志分析架构及处理》对于互联网企业来说,最有价值的数据,往往
阅读全文
摘要:本文搭建环境为:Mac + Parallel Desktop + CentOS7 + JDK7 + Hadoop2.6 + Scala2.10.4 + IDEA14.0.5 —————————————————————————————————————————————————— 一、CentOS安装 ■
阅读全文

浙公网安备 33010602011771号