07 2017 档案
摘要:转载:http://www.cnblogs.com/jcchoiling/p/6494652.html 引言 Spark 从1.6.x 开始对 JVM 的内存使用作出了一种全新的改变,Spark 1.6.x 以前是基于静态固定的JVM内存使用架构和运行机制,如果你不知道 Spark 到底对 JVM 
        阅读全文
            
摘要:装载:http://www.cnblogs.com/jcchoiling/p/6431969.html 引言 Spark HashShuffle 是它以前的版本,现在1.6x 版本默应是 Sort-Based Shuffle,那为什么要讲 HashShuffle 呢,因为有分布式就一定会有 Shuf
        阅读全文
            
摘要:转载:http://www.cnblogs.com/jcchoiling/p/6440709.html 一、大数据性能调优的本质 编程的时候发现一个惊人的规律,软件是不存在的!所有编程高手级别的人无论做什么类型的编程,最终思考的都是硬件方面的问题!最终思考都是在一秒、一毫秒、甚至一纳秒到底是如何运行
        阅读全文
            
摘要:1、 spark 从hbase过滤出数据形成RDD,然后再做计算,这个错误大概意思是 从hbase过滤出来的数据为空,也就是一个空的RDD 2、 org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output loca
        阅读全文
            
摘要:1、用 sqoop 将MySQL中的数据导入hbase中 sqoop import \--connect jdbc:mysql://***.***.*.***:3306/mysql \--hbase-table Nbigdata \--column-family gps \--hbase-row-k
        阅读全文
            
摘要:1、RowFilter 提取rowkey以01结尾数据Filter filter = new RowFilter(CompareFilter.CompareOp.EQUAL,new RegexStringComparator(".*01$"));提取rowkey以包含201407的数据Filter 
        阅读全文
            
摘要:开发调优 调优概述 Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据
        阅读全文
            
                    
                
浙公网安备 33010602011771号