大数据 - 随笔分类 - FlyingWarrior

局部敏感哈希(Locality-Sensitive Hashing, LSH)

摘要：转自局部敏感哈希(Locality-Sensitive Hashing, LSH) 一、局部敏感哈希LSH 在很多应用领域中，我们面对和需要处理的数据往往是海量并且具有很高的维度，怎样快速地从海量的高维数据集合中找到与某个数据最相似（距离最近）的一个数据或多个数据成为了一个难点和问题。如果是低维的小阅读全文

posted @ 2019-01-02 16:33 FlyingWarrior 阅读(652) 评论(0) 推荐(0)

MapReduce Combiner

摘要：Combiner编程(可选步骤，视情况而定！) combiner最基本是实现本地key的归并，combiner具有类似本地的reduce功能。如果不用combiner，那么所有的结果都是reduce完成，效率会相对低下。使用combiner，先完成的map会在本地聚合，提升速度。注意：Combi 阅读全文

posted @ 2018-12-21 15:07 FlyingWarrior 阅读(167) 评论(0) 推荐(0)

MapReduce shuffle的过程分析

摘要：shuffle阶段其实就是多个map任务的输出，按照不同的分区，通过网络copy到不同的reduce节点上。 Map端： 1、在map端首先接触的是InputSplit，在InputSplit中含有DataNode中的数据，每一个InputSplit都会分配一个Mapper任务，Mapper任务结束阅读全文

posted @ 2018-12-21 14:37 FlyingWarrior 阅读(328) 评论(0) 推荐(0)

MapReduce原理

摘要：MapReduce简介 MapReduce执行流程 MapReduce原理 MapReduce的执行步骤： 1、Map任务处理 1.1 读取HDFS中的文件。每一行解析成一个<k,v>。每一个键值对调用一次map函数。 <0,hello you> <10,hello me> 1.2 覆盖map()，阅读全文

posted @ 2018-12-21 14:11 FlyingWarrior 阅读(210) 评论(0) 推荐(0)

Spark学习（二）——RDD的设计与运行原理

摘要：Spark的核心是建立在统一的抽象RDD之上，使得Spark的各个组件可以无缝进行集成，在同一个应用程序中完成大数据计算任务。RDD的设计理念源自AMP实验室发表的论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for 阅读全文

posted @ 2018-07-25 22:08 FlyingWarrior 阅读(1223) 评论(0) 推荐(0)

Spark学习（一）——Spark运行架构

摘要：基本概念在具体讲解Spark运行架构之前，需要先了解几个重要的概念： RDD：是弹性分布式数据集（Resilient Distributed Dataset）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型； DAG：是Directed Acyclic Graph（有向无环图）阅读全文

posted @ 2018-07-25 22:07 FlyingWarrior 阅读(699) 评论(0) 推荐(0)

Scala学习（四）——模式匹配与函数组合

摘要：函数组合让我们创建两个函数： def f(s: String) = "f(" + s + ")" def g(s: String) = "g(" + s + ")" compose compose 组合其他函数形成一个新的函数 f(g(x)) val fComposeG = f _ compose 阅读全文

posted @ 2018-07-24 21:28 FlyingWarrior 阅读(403) 评论(0) 推荐(0)

Scala学习（三）——集合

摘要：基本数据结构 Scala提供了一些不错的集合。数组 Array 数组是有序的，可以包含重复项，并且可变。 val numbers = Array(1, 2, 3, 4, 5, 1, 2, 3, 4, 5) numbers(3) = 10 numbers // Array(1, 2, 3, 10, 阅读全文

posted @ 2018-07-24 21:26 FlyingWarrior 阅读(228) 评论(0) 推荐(0)

Scala学习（二）——高级特性

摘要：apply() 方法 apply方法是Scala提供的一个语法糖类名+括号，调用对象的apply方法对象名+括号，调用类的apply方法对apply方法的简单测试：（其中，带 new -- class ApplyTest，不带 new -- object ApplyTest） class Ap 阅读全文

posted @ 2018-07-24 21:25 FlyingWarrior 阅读(233) 评论(0) 推荐(0)

Scala学习（一）——基础语法

摘要：Scala语言是一种面向对象语言，结合了命令式（imperative）和函数式（functional）编程风格，其设计理念是创造一种更好地支持组件的语言。特性多范式（Multi-Paradigm）编程语言，类似Java、C#；继承面向对象编程和函数式编程的特性；面向对象：[1]. 子类继承，阅读全文

posted @ 2018-07-24 21:22 FlyingWarrior 阅读(206) 评论(0) 推荐(0)

Hive SQL 语法学习与实践

摘要：Hive 介绍 Hive 是基于Hadoop 构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，通过自己的SQL 去查询阅读全文

posted @ 2018-07-20 21:01 FlyingWarrior 阅读(639) 评论(0) 推荐(0)

Spark学习笔记之RDD中的Transformation和Action函数

摘要：总算可以开始写第一篇技术博客了，就从学习Spark开始吧。之前阅读了很多关于Spark的文章，对Spark的工作机制及编程模型有了一定了解，下面把Spark中对RDD的常用操作函数做一下总结，以pyspark库为例。 RDD 的操作函数(operation)主要分为2种类型 Transformati 阅读全文

posted @ 2018-03-13 22:57 FlyingWarrior 阅读(645) 评论(0) 推荐(0)

FlyingWarrior

step by step

随笔分类 - 大数据

公告