随笔档案「2017年7月」 - 凌-风

spark性能调优（四） spark shuffle中JVM内存使用及配置内幕详情

摘要：转载：http://www.cnblogs.com/jcchoiling/p/6494652.html 引言 Spark 从1.6.x 开始对 JVM 的内存使用作出了一种全新的改变，Spark 1.6.x 以前是基于静态固定的JVM内存使用架构和运行机制，如果你不知道 Spark 到底对 JVM 阅读全文

posted @ 2017-07-26 19:48 凌-风阅读(620) 评论(0) 推荐(0)

spark性能调优（二）彻底解密spark的Hash Shuffle

摘要：装载：http://www.cnblogs.com/jcchoiling/p/6431969.html 引言 Spark HashShuffle 是它以前的版本，现在1.6x 版本默应是 Sort-Based Shuffle，那为什么要讲 HashShuffle 呢，因为有分布式就一定会有 Shuf 阅读全文

posted @ 2017-07-26 11:35 凌-风阅读(1198) 评论(0) 推荐(0)

spark 性能调优（一）性能调优的本质、spark资源使用原理、调优要点分析

摘要：转载：http://www.cnblogs.com/jcchoiling/p/6440709.html 一、大数据性能调优的本质编程的时候发现一个惊人的规律，软件是不存在的！所有编程高手级别的人无论做什么类型的编程，最终思考的都是硬件方面的问题！最终思考都是在一秒、一毫秒、甚至一纳秒到底是如何运行阅读全文

posted @ 2017-07-26 10:37 凌-风阅读(650) 评论(0) 推荐(0)

一、spark错误

摘要：1、 spark 从hbase过滤出数据形成RDD，然后再做计算，这个错误大概意思是从hbase过滤出来的数据为空，也就是一个空的RDD 2、 org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output loca 阅读全文

posted @ 2017-07-24 12:01 凌-风阅读(2486) 评论(0) 推荐(0)

sqoop 补充

摘要：1、用 sqoop 将MySQL中的数据导入hbase中 sqoop import \--connect jdbc:mysql://***.***.*.***:3306/mysql \--hbase-table Nbigdata \--column-family gps \--hbase-row-k 阅读全文

posted @ 2017-07-24 11:34 凌-风阅读(995) 评论(0) 推荐(0)

Hbase—— rowkey 过滤器（rowfilter）

摘要：1、RowFilter 提取rowkey以01结尾数据Filter filter = new RowFilter(CompareFilter.CompareOp.EQUAL,new RegexStringComparator(".*01$"));提取rowkey以包含201407的数据Filter 阅读全文

posted @ 2017-07-21 17:57 凌-风阅读(4521) 评论(0) 推荐(0)

spark 调优——基础篇

摘要：开发调优调优概述 Spark性能优化的第一步，就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优，就是要让大家了解以下一些Spark基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据阅读全文

posted @ 2017-07-20 19:38 凌-风阅读(420) 评论(0) 推荐(0)

人生，唯有锻炼与读书不能辜负

07 2017 档案

公告