骁枫 - 博客园

2016年1月7日

摘要：原文：http://www.hollischuang.com/archives/489一、基础篇1.1 JVM1.1.1. Java内存模型，Java内存管理，Java堆和栈，垃圾回收http://www.jcp.org/en/jsr/detail?id=133http://ifeve.com/jm... 阅读全文

posted @ 2016-01-07 15:27 骁枫阅读(357) 评论(0) 推荐(1)

Spark读取配置（转）

摘要：转自：https://github.com/keepsimplefocus/spark-sourcecodes-analysis/blob/master/markdowns/Spark%E8%AF%BB%E5%8F%96%E9%85%8D%E7%BD%AE.mdSpark读取配置我们知道，有一些配置... 阅读全文

posted @ 2016-01-07 09:46 骁枫阅读(1482) 评论(0) 推荐(0)

2015年12月23日

sqoop连接SqlServer2012示例

摘要： sqoop import --connect 'jdbc:sqlserver://192.168.xx.xx:1433;username=sa;password=xxxx;database=WindElec' --table sqlTest1 --target-dir '/sqoop/test1' -m 2 阅读全文

posted @ 2015-12-23 22:01 骁枫阅读(1438) 评论(0) 推荐(0)

Spark 调优（转）

摘要： Spark 调优返回原文英文原文：Tuning SparkBecause of the in-memory nature of most Spark computations, Spark programs can be bottlenecked by any resource in the clu... 阅读全文

posted @ 2015-12-23 15:00 骁枫阅读(2173) 评论(0) 推荐(0)

2015年12月14日

spark Kryo serialization failed: Buffer overflow 错误

摘要：今天在写spark任务的时候遇到这么一个错误，我的spark版本是1.5.1.1 Exception in thread "main" com.esotericsoftware.kryo.KryoException: Buffer overflow. Available: 0, required: ... 阅读全文

posted @ 2015-12-14 17:35 骁枫阅读(7279) 评论(0) 推荐(0)

2015年12月3日

spark sql加载avro

摘要： 1、spark sql可以直接加载avro文件，之后再进行一系列的操作，示例：阅读全文

posted @ 2015-12-03 11:45 骁枫阅读(1064) 评论(0) 推荐(0)

spark使用scala读取Avro数据（转）

摘要：这是一篇翻译，原文来自：How to load some Avro data into Spark。首先，为什么使用 Avro ？最基本的格式是 CSV ，其廉价并且不需要顶一个一个 schema 和数据关联。随后流行起来的一个通用的格式是 XML，其有一个 schema 和数据关联，XML 广泛... 阅读全文

posted @ 2015-12-03 11:31 骁枫阅读(1620) 评论(0) 推荐(0)

Java读写hdfs上的avro文件

摘要： 1、通过Java往hdfs写avro文件 1 import java.io.File; 2 import java.io.IOException; 3 import java.io.OutputStream; 4 import java.nio.ByteBuffer; 5 6 import org... 阅读全文

posted @ 2015-12-03 11:31 骁枫阅读(2814) 评论(0) 推荐(0)

2015年12月2日

spark遇到的错误1-内存不足

摘要：原来的代码： JavaRDD javaRdd = rdd.flatMap(new FlatMapFunction() { private static final long serialVersionUID = 10000L; List newList =... 阅读全文

posted @ 2015-12-02 17:53 骁枫阅读(1142) 评论(0) 推荐(0)

2015年12月1日

用Hadoop AVRO进行大量小文件的处理（转）

摘要：使用使用使用使用 HDFS 保存大量小文件的缺点：1.Hadoop NameNode 在内存中保存所有文件的“元信息”数据。据统计，每一个文件需要消耗 NameNode600 字节内存。如果需要保存大量的小文件会对NameNode 造成极大的压力。2.如果采用 Hadoop MapReduce ... 阅读全文

posted @ 2015-12-01 17:48 骁枫阅读(1336) 评论(0) 推荐(0)