摘要:
前言 开发调优 调优概述 原则一:避免创建重复的RDD 原则二:尽可能复用同一个RDD 原则三:对多次使用的RDD进行持久化 原则四:尽量避免使用shuffle类算子 原则五:使用map-side预聚合的shuffle操作 原则六:使用高性能的算子 原则七:广播大变量 原则八:使用Kryo优化序列化 阅读全文
posted @ 2017-05-11 19:51
thinker1017
阅读(450)
评论(1)
推荐(1)
摘要:
前言 数据倾斜调优 调优概述 数据倾斜发生时的现象 数据倾斜发生的原理 如何定位导致数据倾斜的代码 查看导致数据倾斜的key的数据分布情况 数据倾斜的解决方案 解决方案一:使用Hive ETL预处理数据 解决方案二:过滤少数导致倾斜的key 解决方案三:提高shuffle操作的并行度 解决方案四:两 阅读全文
posted @ 2017-05-11 19:49
thinker1017
阅读(509)
评论(1)
推荐(1)
摘要:
word2vec注释 1、多线程并行处理: 1、分配内存空间,创建多线程,执行多线程。malloc,pthread_create,pthread_join 2、每个多线程处理的训练文档根据线程id,分配不同的文档内容,由fseek定位 2、vocab相关: 1、每个vocab对象都含以下内容:词(c 阅读全文
posted @ 2017-05-11 16:10
thinker1017
阅读(4813)
评论(1)
推荐(0)
摘要:
前言 哈夫曼编码(Huffman coding)是一种可变长的前缀码。哈夫曼编码使用的算法是David A. Huffman还是在MIT的学生时提出的,并且在1952年发表了名为《A Method for the Construction of Minimum-Redundancy Codes》的文 阅读全文
posted @ 2017-05-11 15:58
thinker1017
阅读(675)
评论(0)
推荐(0)
摘要:
使用场景 Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Spark Streaming也没有设置CheckPoint(据说比较鸡肋,虽然可以保存Direct方式的offset,但是可能会导致频繁写HDFS占用IO),所以每次出现问题的时候, 阅读全文
posted @ 2017-05-11 15:46
thinker1017
阅读(13658)
评论(5)
推荐(3)
浙公网安备 33010602011771号