BBBone

2019年5月15日

摘要：目录一、概述二、shuffle的定义三、ShuffleMananger发展概述四、HashShuffleManager的运行原理4.1 未经优化的HashShuffleManager4.2 优化后的HashShuffleManager五、SortShuffleManager运行原理5.1 普通运行机制5.2 bypass运行机制六、shuffle相关参数调优spark.shuffle.file.b... 阅读全文

posted @ 2019-05-15 00:29 BBBone 阅读(1118) 评论(0) 推荐(0)

ES项目实战

摘要：前置ES: JavaSpark/Flink Stack + Spring Boot + ES Scala/Java + Java/Scala + Java==> 用API的方式来掌握ES的用法(API、SpringBoot的使用)ES: API RESTFulElasticSearch + Kibana存储展示/分析ES Plugin: Head SQL Kibana (三个插件... 阅读全文

posted @ 2019-05-15 00:28 BBBone 阅读(789) 评论(0) 推荐(0)

foreachRDD

摘要：需求: 将统计结果写入到MySQLcreate table wordcount( word varchar(50) default null, wordcount int(10) default null);通过该sql将统计结果写入到MySQL "insert into wordcount(word, wordcount) vlaues('" + record._1 + "'," + re... 阅读全文

posted @ 2019-05-15 00:27 BBBone 阅读(578) 评论(0) 推荐(0)

Hive的数据倾斜

摘要：目录什么是数据倾斜Hadoop框架的特性主要表现容易数据倾斜的情况产生数据清洗的原因业务场景空值产生的数据倾斜不同数据类型关联产生数据倾斜大小表关联查询产生数据倾斜一、什么是数据倾斜由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点二、Hadoop框架的特性不怕数据大,怕数据倾斜jobs数比较多的作业运行效率相对比较低,如子查询比较多sum、count、max、min等聚合函数,通常不会有... 阅读全文

posted @ 2019-05-15 00:27 BBBone 阅读(445) 评论(0) 推荐(0)

SparkStreaming实战(数据库(NoSQL))

摘要：完全搞清楚项目需求,思考项目选项,这块就是使用的是数据库,就是HBase,因为它里面有一个非常合适的API,直接调用,即可功能一: 今天到现在为止实战课程的访问量yyyyMMdd使用数据库来进行存储我们的统计结果 Spark Streaming吧统计结果写入到数据库里面可视化前端根据: yyyyMMdd courseid 把数据库里面的统计结果展示出来选择什么数据库为统... 阅读全文

posted @ 2019-05-15 00:26 BBBone 阅读(565) 评论(0) 推荐(0)

2019年5月7日

Spark(4)

摘要： Spark Core官网学习回顾 Speed disk 10x memory 100x Easy code interactive shell Unified Stack Batch Streaming ML Graph Deployment Local... 阅读全文

posted @ 2019-05-07 22:39 BBBone 阅读(153) 评论(0) 推荐(0)

SparkStreming中 `transform()`算子的的使用

摘要：关联 DStream 和 RDDtransform(func)Return a new DStream by applying a RDD-to-RDD function to every RDD of the source DStream. This can be used to do arbitrary RDD operations on the DStream.黑名单过滤实现思路:拿到访问日... 阅读全文

posted @ 2019-05-07 22:33 BBBone 阅读(2290) 评论(0) 推荐(1)

RDD源码分析

摘要： RDD源码解析一、RDD.scala- Resilient Distributed Dataset (RDD) 弹性分布式数据集弹性: 体现在计算上面- the basic abstraction in Spark- Represents an immutable val RDDA == RDDB- partitioned collection of elements-... 阅读全文

posted @ 2019-05-07 22:18 BBBone 阅读(350) 评论(0) 推荐(0)

spark2.4.2 源码编译

摘要：基于Maven的构建是Apache Spark的参考构建。使用Maven构建Spark需要Maven 3.5.4和Java 8.请注意，从Spark 2.2.0开始，对Java 7的支持已被删除。包:jdk-8u51-linux-x64.tar.gzapache-maven-3.3.9-bin.tar.gzspark-2.4.2.tgzscala-2.11.8.tgz1、maven中的设置需要通过... 阅读全文

posted @ 2019-05-07 21:39 BBBone 阅读(519) 评论(0) 推荐(0)

Spark应用程序开发流程

摘要：配置文件:pom.xml 2.11.8 2.2.0 2.6.0-cdh5.7.0 cloudera cloudera https://repository.cloudera.com/artifactory/cloudera-repos/ org.scala-lang ... 阅读全文

posted @ 2019-05-07 19:10 BBBone 阅读(2059) 评论(0) 推荐(0)

公告