07 2017 档案

摘要:转载:http://www.cnblogs.com/jcchoiling/p/6494652.html 引言 Spark 从1.6.x 开始对 JVM 的内存使用作出了一种全新的改变,Spark 1.6.x 以前是基于静态固定的JVM内存使用架构和运行机制,如果你不知道 Spark 到底对 JVM 阅读全文
posted @ 2017-07-26 19:48 凌-风 阅读(617) 评论(0) 推荐(0)
摘要:装载:http://www.cnblogs.com/jcchoiling/p/6431969.html 引言 Spark HashShuffle 是它以前的版本,现在1.6x 版本默应是 Sort-Based Shuffle,那为什么要讲 HashShuffle 呢,因为有分布式就一定会有 Shuf 阅读全文
posted @ 2017-07-26 11:35 凌-风 阅读(1191) 评论(0) 推荐(0)
摘要:转载:http://www.cnblogs.com/jcchoiling/p/6440709.html 一、大数据性能调优的本质 编程的时候发现一个惊人的规律,软件是不存在的!所有编程高手级别的人无论做什么类型的编程,最终思考的都是硬件方面的问题!最终思考都是在一秒、一毫秒、甚至一纳秒到底是如何运行 阅读全文
posted @ 2017-07-26 10:37 凌-风 阅读(649) 评论(0) 推荐(0)
摘要:1、 spark 从hbase过滤出数据形成RDD,然后再做计算,这个错误大概意思是 从hbase过滤出来的数据为空,也就是一个空的RDD 2、 org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output loca 阅读全文
posted @ 2017-07-24 12:01 凌-风 阅读(2481) 评论(0) 推荐(0)
摘要:1、用 sqoop 将MySQL中的数据导入hbase中 sqoop import \--connect jdbc:mysql://***.***.*.***:3306/mysql \--hbase-table Nbigdata \--column-family gps \--hbase-row-k 阅读全文
posted @ 2017-07-24 11:34 凌-风 阅读(993) 评论(0) 推荐(0)
摘要:1、RowFilter 提取rowkey以01结尾数据Filter filter = new RowFilter(CompareFilter.CompareOp.EQUAL,new RegexStringComparator(".*01$"));提取rowkey以包含201407的数据Filter 阅读全文
posted @ 2017-07-21 17:57 凌-风 阅读(4518) 评论(0) 推荐(0)
摘要:开发调优 调优概述 Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据 阅读全文
posted @ 2017-07-20 19:38 凌-风 阅读(417) 评论(0) 推荐(0)