2017 年 5月 11 日随笔档案 - thinker1017

2017年5月11日

摘要：前言开发调优调优概述原则一：避免创建重复的RDD 原则二：尽可能复用同一个RDD 原则三：对多次使用的RDD进行持久化原则四：尽量避免使用shuffle类算子原则五：使用map-side预聚合的shuffle操作原则六：使用高性能的算子原则七：广播大变量原则八：使用Kryo优化序列化阅读全文

posted @ 2017-05-11 19:51 thinker1017 阅读(453) 评论(1) 推荐(1)

【转载】Spark性能优化指南——高级篇

摘要：前言数据倾斜调优调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一：使用Hive ETL预处理数据解决方案二：过滤少数导致倾斜的key 解决方案三：提高shuffle操作的并行度解决方案四：两阅读全文

posted @ 2017-05-11 19:49 thinker1017 阅读(510) 评论(1) 推荐(1)

利用中文数据跑Google开源项目word2vec

摘要： word2vec注释 1、多线程并行处理： 1、分配内存空间，创建多线程，执行多线程。malloc,pthread_create,pthread_join 2、每个多线程处理的训练文档根据线程id，分配不同的文档内容,由fseek定位 2、vocab相关： 1、每个vocab对象都含以下内容：词(c 阅读全文

posted @ 2017-05-11 16:10 thinker1017 阅读(4815) 评论(1) 推荐(0)

哈夫曼编码(Huffman coding)的那些事,(编码技术介绍和程序实现)

摘要：前言哈夫曼编码(Huffman coding)是一种可变长的前缀码。哈夫曼编码使用的算法是David A. Huffman还是在MIT的学生时提出的，并且在1952年发表了名为《A Method for the Construction of Minimum-Redundancy Codes》的文阅读全文

posted @ 2017-05-11 15:58 thinker1017 阅读(682) 评论(0) 推荐(0)

Spark Streaming消费Kafka Direct方式数据零丢失实现

摘要：使用场景 Spark Streaming实时消费kafka数据的时候，程序停止或者Kafka节点挂掉会导致数据丢失，Spark Streaming也没有设置CheckPoint（据说比较鸡肋，虽然可以保存Direct方式的offset，但是可能会导致频繁写HDFS占用IO），所以每次出现问题的时候，阅读全文

posted @ 2017-05-11 15:46 thinker1017 阅读(13660) 评论(5) 推荐(3)

公告