Hadoop - 随笔分类 - 废物大师兄

Flink DataStream API

摘要：1. API基本概念 Flink程序可以对分布式集合进行转换（例如： filtering, mapping, updating state, joining, grouping, defining windows, aggregating）集合最初是从源创建的（例如，从文件、kafka主题或本地内阅读全文

posted @ 2020-06-09 19:23 废物大师兄阅读(2228) 评论(0) 推荐(0)

Spark Streaming 编程入门指南

摘要：Spark Streaming 是核心Spark API的扩展，可实现实时数据流的可伸缩，高吞吐量，容错流处理。可以从许多数据源（例如Kafka，Flume，Kinesis或TCP sockets）中提取数据，并且可以使用复杂的算法处理数据，这些算法用高级函数表示，如map、reduce、join和阅读全文

posted @ 2020-04-11 14:19 废物大师兄阅读(2252) 评论(0) 推荐(0)

物品推荐（基于物品的协同过滤算法）

摘要：用户对物品的评分矩阵 × 物品相似矩阵 = 推荐列表构建物品相似度矩阵的时候可以通过计算两个物品的余弦相似度得出，于是需要构建每个物品在所有用户中的评分矩阵本例中，不采用余弦相似度的方式计算物品与物品相似度在MapReduce作业中，输入数据的格式是：用户，物品，评分第一步、构建用于评分矩阵阅读全文

posted @ 2018-01-02 14:29 废物大师兄阅读(19958) 评论(2) 推荐(11)

MapReduce工作原理流程简介

摘要：在MapReduce整个过程可以概括为以下过程：输入 --> map --> shuffle --> reduce -->输出输入文件会被切分成多个块，每一块都有一个map task map阶段的输出结果会先写到内存缓冲区，然后由缓冲区写到磁盘上。默认的缓冲区大小是100M，溢出的百分比是0.8 阅读全文

posted @ 2018-01-01 19:32 废物大师兄阅读(37199) 评论(0) 推荐(12)

HBase简介

摘要：参考 http://hbase.apache.org/book.html#_architecture Architecture 65. Overview 65.1. NoSQL? HBase是一种"NoSQL"数据库。“NoSQL”一般指的是非关系型数据库，我们知道，关系型数据库支持SQL，也就是说阅读全文

posted @ 2017-12-31 18:24 废物大师兄阅读(1495) 评论(0) 推荐(2)

YARN

摘要：http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html Apache Hadoop YARN YARN的主要功能包括：资源管理和任务调度及监控，它们各自都是独立的守护进程。要实现这个目标，必须有一个全局阅读全文

posted @ 2017-12-30 18:09 废物大师兄阅读(914) 评论(0) 推荐(0)

Hive DDL

摘要：阅读全文

posted @ 2017-12-28 12:50 废物大师兄阅读(392) 评论(0) 推荐(0)

Hive Getting Started补充

摘要：配置管理概述 Hive从<install-dir>/conf/hive-default.xml中读取它的默认配置 Hive配置目录的位置可以通过设置HIVE_CONF_DIR环境变量的值来改变配置变量可以被改变，通过<install-dir>/conf/hive-site.xml中重新定义（PS：阅读全文

posted @ 2017-12-28 11:08 废物大师兄阅读(444) 评论(0) 推荐(0)

Hive安装

摘要：https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-SimpleExampleUseCases 解压，并配置环境变量在conf目录下新建一个hive-site.xml文件，配置如下将mysq 阅读全文

posted @ 2017-12-27 23:08 废物大师兄阅读(334) 评论(0) 推荐(0)

HDFS High Availability Using the Quorum Journal Manager

摘要：http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html 背景在Hadoop 2.0.0以前，在一个HDFS集群中NameNode存在单点故障。每个集群阅读全文

posted @ 2017-12-26 21:50 废物大师兄阅读(486) 评论(0) 推荐(0)

HDFS Federation

摘要：http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/Federation.html Background HDFS有两个主要的层： Namespace 由目录、文件和块组成它支持所有的文件系统命名空间操作，比如，阅读全文

posted @ 2017-12-26 20:50 废物大师兄阅读(1024) 评论(0) 推荐(0)

MapReduce Tutorial（划重点）

摘要：Mapper Mapper的maps阶段将输入键值对经过计算得到中间结果键值对，框架会将中间结果按照key进行分组，然后传递给reducer以决定最终的输出。用户可以通过Job.setGroupingComparatorClass(Class)来指定一个Comparator。 Mapper的输出会被阅读全文

posted @ 2017-12-26 12:42 废物大师兄阅读(504) 评论(0) 推荐(0)

MapReduce

摘要：http://hadoop.apache.org/docs/r2.9.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html Overview 一个MapReduce作业通常会将数据输入切分成独立的块阅读全文

posted @ 2017-12-25 23:16 废物大师兄阅读(685) 评论(0) 推荐(0)

HDFS Architecture

摘要：http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html Introduction Hadoop分布式文件系统被设计运行在普通的硬件上。它和目前已经存在的分布式文件系统有很多相似的地方。然阅读全文

posted @ 2017-12-25 12:48 废物大师兄阅读(805) 评论(0) 推荐(0)

hadoop wordcount

摘要：阅读全文

posted @ 2017-12-24 12:46 废物大师兄阅读(357) 评论(0) 推荐(0)

hadoop fs命令

摘要：阅读全文

posted @ 2017-12-23 18:59 废物大师兄阅读(1250) 评论(0) 推荐(0)

Hadoop2.9.0安装

摘要：参考 https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html 1、下载并解压 2、设置环境变量 3、修改hadoop-env.sh 4、修改core-site.xml 5、修阅读全文

posted @ 2017-12-23 17:17 废物大师兄阅读(2014) 评论(0) 推荐(0)

欢迎来到Hadoop

摘要：What Is Apache Hadoop? Hadoop是一个可靠的、可扩展的、分布式计算的开源软件。 Hadoop是一个分布式处理大数据的框架。它被设计成从一台到上千台不等的服务器，每个服务器都提供本地计算和存储的能力。它并非依赖于硬件来提供高可用服务。 Hadoop这个工程包含如下模块： Ha 阅读全文

posted @ 2017-12-23 14:49 废物大师兄阅读(720) 评论(0) 推荐(1)

狂乱的贵公子

人生南北多歧路，君向潇湘我向秦。此后人间多宽敞，南来北往不遇卿。

随笔分类 - Hadoop

公告