上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 17 下一页
摘要: 近几年,信息时代的快速发展产生了海量数据,诞生了无数前沿的大数据技术与应用。在当今大数据时代的产业界,商业决策日益基于数据的分析作出。当数据膨胀到一定规模时,基于机器学习对海量复杂数据的分析更能产生较好的价值,而深度学习在大数据场景下更能揭示数据内部的逻辑关系。本文就以大数据作为场景,通过自底向上的 阅读全文
posted @ 2017-05-13 11:22 thinker1017 阅读(8504) 评论(1) 推荐(0)
摘要: 前言 开发调优 调优概述 原则一:避免创建重复的RDD 原则二:尽可能复用同一个RDD 原则三:对多次使用的RDD进行持久化 原则四:尽量避免使用shuffle类算子 原则五:使用map-side预聚合的shuffle操作 原则六:使用高性能的算子 原则七:广播大变量 原则八:使用Kryo优化序列化 阅读全文
posted @ 2017-05-11 19:51 thinker1017 阅读(450) 评论(1) 推荐(1)
摘要: 前言 数据倾斜调优 调优概述 数据倾斜发生时的现象 数据倾斜发生的原理 如何定位导致数据倾斜的代码 查看导致数据倾斜的key的数据分布情况 数据倾斜的解决方案 解决方案一:使用Hive ETL预处理数据 解决方案二:过滤少数导致倾斜的key 解决方案三:提高shuffle操作的并行度 解决方案四:两 阅读全文
posted @ 2017-05-11 19:49 thinker1017 阅读(509) 评论(1) 推荐(1)
摘要: word2vec注释 1、多线程并行处理: 1、分配内存空间,创建多线程,执行多线程。malloc,pthread_create,pthread_join 2、每个多线程处理的训练文档根据线程id,分配不同的文档内容,由fseek定位 2、vocab相关: 1、每个vocab对象都含以下内容:词(c 阅读全文
posted @ 2017-05-11 16:10 thinker1017 阅读(4813) 评论(1) 推荐(0)
摘要: 前言 哈夫曼编码(Huffman coding)是一种可变长的前缀码。哈夫曼编码使用的算法是David A. Huffman还是在MIT的学生时提出的,并且在1952年发表了名为《A Method for the Construction of Minimum-Redundancy Codes》的文 阅读全文
posted @ 2017-05-11 15:58 thinker1017 阅读(674) 评论(0) 推荐(0)
摘要: 使用场景 Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Spark Streaming也没有设置CheckPoint(据说比较鸡肋,虽然可以保存Direct方式的offset,但是可能会导致频繁写HDFS占用IO),所以每次出现问题的时候, 阅读全文
posted @ 2017-05-11 15:46 thinker1017 阅读(13658) 评论(5) 推荐(3)
摘要: 1. Bit Map算法简介 来自于《编程珠玑》。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。 2、 Bit Map的基本思想 我们先来看一个具体的例子,假设我们要对0-7内的5个元素 阅读全文
posted @ 2016-12-16 22:02 thinker1017 阅读(419) 评论(0) 推荐(0)
摘要: 1. Bloom-Filter算法简介 Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。 Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元 阅读全文
posted @ 2016-12-16 21:59 thinker1017 阅读(330) 评论(0) 推荐(0)
摘要: 在Clearspring,我们从事统计数据。统计一组不同元素且数量很大的数据集时,是一个挑战。 为了更好地理解已经明确基数的大数据集的挑战,我们假设你的日志文件包含16个字符的ID,并且你想统计不同ID的数量.例如: 4f67bfc603106cb2 这16个字符需要用128位来表示。6万5千个ID 阅读全文
posted @ 2016-12-16 21:54 thinker1017 阅读(1272) 评论(0) 推荐(0)
摘要: B树、B-树、B+树、B*树 B树 即二叉搜索树: 1.所有非叶子结点至多拥有两个儿子(Left和Right); 2.所有结点存储一个关键字; 3.非叶子结点的左指针指向小于其关键字的子树,右指针指向大于其关键字的子树; 如: B树的搜索,从根结点开始,如果查询的关键字与结点的关键字相等,那么就命中 阅读全文
posted @ 2016-12-16 21:52 thinker1017 阅读(167) 评论(0) 推荐(0)
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 17 下一页