摘要:
原文:http://www.hollischuang.com/archives/489一、基础篇1.1 JVM1.1.1. Java内存模型,Java内存管理,Java堆和栈,垃圾回收http://www.jcp.org/en/jsr/detail?id=133http://ifeve.com/jm...
阅读全文
posted @ 2016-01-07 15:27
骁枫
阅读(350)
推荐(1)
摘要:
转自:https://github.com/keepsimplefocus/spark-sourcecodes-analysis/blob/master/markdowns/Spark%E8%AF%BB%E5%8F%96%E9%85%8D%E7%BD%AE.mdSpark读取配置我们知道,有一些配置...
阅读全文
posted @ 2016-01-07 09:46
骁枫
阅读(1471)
推荐(0)
摘要:
sqoop import --connect 'jdbc:sqlserver://192.168.xx.xx:1433;username=sa;password=xxxx;database=WindElec' --table sqlTest1 --target-dir '/sqoop/test1' -m 2
阅读全文
posted @ 2015-12-23 22:01
骁枫
阅读(1432)
推荐(0)
摘要:
Spark 调优返回原文英文原文:Tuning SparkBecause of the in-memory nature of most Spark computations, Spark programs can be bottlenecked by any resource in the clu...
阅读全文
posted @ 2015-12-23 15:00
骁枫
阅读(2159)
推荐(0)
摘要:
今天在写spark任务的时候遇到这么一个错误,我的spark版本是1.5.1.1 Exception in thread "main" com.esotericsoftware.kryo.KryoException: Buffer overflow. Available: 0, required: ...
阅读全文
posted @ 2015-12-14 17:35
骁枫
阅读(7229)
推荐(0)
摘要:
1、spark sql可以直接加载avro文件,之后再进行一系列的操作,示例:
阅读全文
posted @ 2015-12-03 11:45
骁枫
阅读(1060)
推荐(0)
摘要:
1、通过Java往hdfs写avro文件 1 import java.io.File; 2 import java.io.IOException; 3 import java.io.OutputStream; 4 import java.nio.ByteBuffer; 5 6 import org...
阅读全文
posted @ 2015-12-03 11:31
骁枫
阅读(2795)
推荐(0)
摘要:
这是一篇翻译,原文来自:How to load some Avro data into Spark。首先,为什么使用 Avro ?最基本的格式是 CSV ,其廉价并且不需要顶一个一个 schema 和数据关联。随后流行起来的一个通用的格式是 XML,其有一个 schema 和 数据关联,XML 广泛...
阅读全文
posted @ 2015-12-03 11:31
骁枫
阅读(1605)
推荐(0)
摘要:
原来的代码: JavaRDD javaRdd = rdd.flatMap(new FlatMapFunction() { private static final long serialVersionUID = 10000L; List newList =...
阅读全文
posted @ 2015-12-02 17:53
骁枫
阅读(1123)
推荐(0)
摘要:
使用 使用使用 使用 HDFS 保存大量小文件的缺点:1.Hadoop NameNode 在内存中保存所有文件的“元信息”数据。据统计,每一个文件需要消耗 NameNode600 字节内存。如果需要保存大量的小文件会对NameNode 造成极大的压力。2.如果采用 Hadoop MapReduce ...
阅读全文
posted @ 2015-12-01 17:48
骁枫
阅读(1329)
推荐(0)