2020 年 2月随笔档案 - Xiaohu_BigData

Spark调优（三） JVM调优

摘要：调节Executor堆外内存概述: Spark底层shuffle的传输方式是使用netty传输，netty在进行网络传输的过程会申请堆外内存(netty是零拷贝)，所以使用了堆外内存。什么时候需要调节Executor的堆外内存大小? shuffle file cannot find (DAGS 阅读全文

posted @ 2020-02-28 13:58 Xiaohu_BigData 阅读(246) 评论(0) 推荐(0)

Spark调优（二）数据本地化

摘要：Application任务执行流程: 在Spark Application提交后，Driver会根据action算子划分成一个个的job，然后对每一个job划分成一个个的stage，stage内部实际上是由一系列并行计算的task组成的，然后以TaskSet的形式提交给你TaskSchedule 阅读全文

posted @ 2020-02-28 13:18 Xiaohu_BigData 阅读(273) 评论(0) 推荐(0)

Spark调优（一）

摘要：一、对多次使用的RDD进行持久化如何选择一种最合适的持久化策略？默认情况下，性能最高的当然是MEMORY_ONLY，但前提是你的内存必须足够足够大，可以绰绰有余地存放下整个RDD的所有数据。因为不进行序列化与反序列化操作，就避免了这部分的性能开销;对这个RDD的后续算子操作，都是基于纯内存中阅读全文

posted @ 2020-02-28 13:10 Xiaohu_BigData 阅读(169) 评论(0) 推荐(0)

spark-shell启动报错

摘要：Spark On Hive 配置步骤在Spark客户端安装包下的conf目录中创建文件hive-site.xml，配置hive的metastore路径 <configuration> <property> <name>hive.metastore.uris</name> <value>thrift: 阅读全文

posted @ 2020-02-23 20:15 Xiaohu_BigData 阅读(428) 评论(0) 推荐(0)

标题Spark Mavem项目在本地测试报错 : Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/SparkConf

摘要：Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/SparkConf at StreamingT$.main(StreamingT.scala:8) at StreamingT.main(Strea 阅读全文

posted @ 2020-02-23 20:10 Xiaohu_BigData 阅读(3647) 评论(0) 推荐(0)

启动hive，报错 Name node is in safe mode.

摘要：在学习过程中，过了几天再启动虚拟机，启动hadoop后再启动别的框架会报错： Exception in thread "main" java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop. 阅读全文

posted @ 2020-02-23 12:16 Xiaohu_BigData 阅读(646) 评论(0) 推荐(0)

Spark 保存本地josn格式文件运行报错 IDEA运行异常java.lang.NoClassDefFoundError: org/apache/spark/api/java/function/Function

摘要：报错信息： java.lang.NoClassDefFoundError: org/apache/spark/api/java/function/Function at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.C 阅读全文

posted @ 2020-02-20 22:06 Xiaohu_BigData 阅读(522) 评论(0) 推荐(0)

Spark SQL （一）

摘要：Spark SQL Spark与Hive的比较，Hive用一句话总结是，传入一条交互式sql在海量数据中查找结果，Spark可以将其结果转化成RDD来来进一步操作。 1.0以前： Shark 1.1.x开始： SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Da 阅读全文

posted @ 2020-02-19 20:34 Xiaohu_BigData 阅读(430) 评论(0) 推荐(0)

Spark core 总结

摘要：Spark RDD五大特性 1、RDD由一组partition组成 2、每一个分区由一个task来处理 3、RDD之间有一些列依赖关系 4、分区类算子必须作用在kv格式得RDD上 5、spark为task执行提供了最佳计算位置，尽量将task发送到数据所在节点执行 spark 快的原因 1、spar 阅读全文

posted @ 2020-02-15 14:15 Xiaohu_BigData 阅读(919) 评论(0) 推荐(0)

SparkRDD算子（transformations算子和actions算子）

摘要：RDD提供了两种类型的操作：transformation和action1、所有的transformation都是采用的懒策略，如果只是将transformation提交是不会执行计算的，计算只有在action被提交的时候才被触发。2、action操作：action是得到一个值，或者一个结果（直接将R 阅读全文

posted @ 2020-02-12 19:38 Xiaohu_BigData 阅读(414) 评论(0) 推荐(0)

SparkRDD算子初识

摘要：Spark 的核心是建立在统一的抽象弹性分布式数据集（Resiliennt Distributed Datasets，RDD）之上的，这使得 Spark 的各个组件可以无缝地进行集成，能够在同一个应用程序中完成大数据处理。本节将对 RDD 的基本概念及与 RDD 相关的概念做基本介绍。先回顾一下R 阅读全文

posted @ 2020-02-12 18:36 Xiaohu_BigData 阅读(540) 评论(0) 推荐(0)

初识Spark

摘要：Spark最初由美国加州伯克利大学的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。 Spark特点Spark具有如下几个主要特点：运行速度快：Spark使用先进的DAG（Directed Acyclic Graph，有向无环图）执行引阅读全文

posted @ 2020-02-11 13:03 Xiaohu_BigData 阅读(463) 评论(0) 推荐(0)

Xiaohu_BigData

02 2020 档案

公告