thinker1017 - 博客园

2017年5月13日

摘要：近几年，信息时代的快速发展产生了海量数据，诞生了无数前沿的大数据技术与应用。在当今大数据时代的产业界，商业决策日益基于数据的分析作出。当数据膨胀到一定规模时，基于机器学习对海量复杂数据的分析更能产生较好的价值，而深度学习在大数据场景下更能揭示数据内部的逻辑关系。本文就以大数据作为场景，通过自底向上的阅读全文

posted @ 2017-05-13 11:22 thinker1017 阅读(8510) 评论(1) 推荐(0)

2017年5月11日

【转载】 Spark性能优化指南——基础篇

摘要：前言开发调优调优概述原则一：避免创建重复的RDD 原则二：尽可能复用同一个RDD 原则三：对多次使用的RDD进行持久化原则四：尽量避免使用shuffle类算子原则五：使用map-side预聚合的shuffle操作原则六：使用高性能的算子原则七：广播大变量原则八：使用Kryo优化序列化阅读全文

posted @ 2017-05-11 19:51 thinker1017 阅读(453) 评论(1) 推荐(1)

【转载】Spark性能优化指南——高级篇

摘要：前言数据倾斜调优调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一：使用Hive ETL预处理数据解决方案二：过滤少数导致倾斜的key 解决方案三：提高shuffle操作的并行度解决方案四：两阅读全文

posted @ 2017-05-11 19:49 thinker1017 阅读(510) 评论(1) 推荐(1)

利用中文数据跑Google开源项目word2vec

摘要： word2vec注释 1、多线程并行处理： 1、分配内存空间，创建多线程，执行多线程。malloc,pthread_create,pthread_join 2、每个多线程处理的训练文档根据线程id，分配不同的文档内容,由fseek定位 2、vocab相关： 1、每个vocab对象都含以下内容：词(c 阅读全文

posted @ 2017-05-11 16:10 thinker1017 阅读(4814) 评论(1) 推荐(0)

哈夫曼编码(Huffman coding)的那些事,(编码技术介绍和程序实现)

摘要：前言哈夫曼编码(Huffman coding)是一种可变长的前缀码。哈夫曼编码使用的算法是David A. Huffman还是在MIT的学生时提出的，并且在1952年发表了名为《A Method for the Construction of Minimum-Redundancy Codes》的文阅读全文

posted @ 2017-05-11 15:58 thinker1017 阅读(682) 评论(0) 推荐(0)

Spark Streaming消费Kafka Direct方式数据零丢失实现

摘要：使用场景 Spark Streaming实时消费kafka数据的时候，程序停止或者Kafka节点挂掉会导致数据丢失，Spark Streaming也没有设置CheckPoint（据说比较鸡肋，虽然可以保存Direct方式的offset，但是可能会导致频繁写HDFS占用IO），所以每次出现问题的时候，阅读全文

posted @ 2017-05-11 15:46 thinker1017 阅读(13660) 评论(5) 推荐(3)

2016年12月16日

海量数据处理算法—BitMap

摘要： 1. Bit Map算法简介来自于《编程珠玑》。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。 2、 Bit Map的基本思想我们先来看一个具体的例子，假设我们要对0-7内的5个元素阅读全文

posted @ 2016-12-16 22:02 thinker1017 阅读(423) 评论(0) 推荐(0)

海量数据处理算法—Bloom Filter

摘要： 1. Bloom-Filter算法简介 Bloom-Filter，即布隆过滤器，1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。 Bloom Filter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元阅读全文

posted @ 2016-12-16 21:59 thinker1017 阅读(334) 评论(0) 推荐(0)

大数据计算：如何仅用1.5KB内存为十亿对象计数

摘要：在Clearspring，我们从事统计数据。统计一组不同元素且数量很大的数据集时，是一个挑战。为了更好地理解已经明确基数的大数据集的挑战，我们假设你的日志文件包含16个字符的ID,并且你想统计不同ID的数量.例如: 4f67bfc603106cb2 这16个字符需要用128位来表示。6万5千个ID 阅读全文

posted @ 2016-12-16 21:54 thinker1017 阅读(1273) 评论(0) 推荐(0)

B树、B-树、B+树、B*树

摘要： B树、B-树、B+树、B*树 B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； 2.所有结点存储一个关键字； 3.非叶子结点的左指针指向小于其关键字的子树，右指针指向大于其关键字的子树；如： B树的搜索，从根结点开始，如果查询的关键字与结点的关键字相等，那么就命中阅读全文

posted @ 2016-12-16 21:52 thinker1017 阅读(168) 评论(0) 推荐(0)

公告