Hadoop - 随笔分类 - shaoyayu

HBase 与 MapReduce 整合

摘要：HBase 与 MapReduce 整合 phoenix.apache.org Mapreduce运行3种方式本地方式运行： pc环境 1.1、将 Hadoop安装本地解压 1.2、配置 Hadoop的环境变量添加%HADOOP_HOME% 修改%PATH%添加%HADOOP_HOME%/bin 阅读全文

posted @ 2020-12-02 15:39 shaoyayu 阅读(1295) 评论(0) 推荐(0)

MapReduce TFIDF 案列

摘要：TFIDF 案列概念 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。 TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次阅读全文

posted @ 2020-08-04 16:28 shaoyayu 阅读(176) 评论(0) 推荐(0)

MapReduce PageRank案列

摘要：PageRank案列什么是pagerank PageRank是Google提出的算法，用于衡量特定网页相对于搜索引擎索弓中的其他网页而言的重要程度。是Google创始人拉里佩奇和谢尔盖布林于1997年创造的 PageRank实现了将链接价值概念作为排名因素。计算环境 Hadoop-2.5.2 阅读全文

posted @ 2020-08-04 16:26 shaoyayu 阅读(262) 评论(0) 推荐(0)

MapReduce好友推荐案例

摘要：MapReduce好友推荐案例好友序列 tom hello hadoop cat world hadoop hello hive cat tom hive mr hive hello hive cat hadoop world hello mr hadoop tom hive world hell 阅读全文

posted @ 2020-08-04 16:23 shaoyayu 阅读(265) 评论(0) 推荐(0)

MapReduce天气查询实列

摘要：MapReduce天气查询实列天气统计案例 2000-01-01 16 29 2000-01-02 14 40 2000-01-03 23 35 2000-01-04 18 25 2000-01-05 14 33 2000-01-06 14 -4 ...... 2000-01-18 23 26 2 阅读全文

posted @ 2020-08-04 16:21 shaoyayu 阅读(255) 评论(0) 推荐(0)

MapReduce源码分析

摘要：MapReduce源码分析 Job waitForCompletion方法 public boolean waitForCompletion(boolean verbose ) throws IOException, InterruptedException, ClassNotFoundExcept 阅读全文

posted @ 2020-08-04 16:18 shaoyayu 阅读(248) 评论(0) 推荐(0)

MapReduce api实战

摘要：MapReduce api实战配置pmx <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLS 阅读全文

posted @ 2020-08-04 16:16 shaoyayu 阅读(309) 评论(0) 推荐(0)

配置YARN高可用

摘要：配置YARN高可用官方文档：https://hadoop.apache.org/docs/r2.7.5/ 1、Configure parameters as follows:etc/hadoop/mapred-site.xml: <configuration> <property> <name>m 阅读全文

posted @ 2020-08-04 16:14 shaoyayu 阅读(1247) 评论(0) 推荐(0)

Yarn 分布式资源调度

摘要：Yarn 分布式资源调度 MapReduce的不足参考文章：https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/ yarn体系结构 yarn(yet Another Resources Negotiation，另一种阅读全文

posted @ 2020-08-04 16:11 shaoyayu 阅读(505) 评论(0) 推荐(0)

MapReduce 案例与概述

摘要：MapReduce 案例与概述官方简介 Overview Hadoop MapReduce is a software framework for easily writing applications which process vast amounts of data (multi-terab 阅读全文

posted @ 2020-08-04 16:07 shaoyayu 阅读(227) 评论(0) 推荐(0)

HDFS 伪分布式集群搭建

摘要：伪分布式集群搭建 1、伪分布式搭建 1.1、先配置JDK环境上传后解压JDK到/usr/java/ export JAVA_HOME=/usr/java/jdk1.8.0_221 export JRE_HOME=/usr/java/jdk1.8.0_221/jre export CLASSPATH 阅读全文

posted @ 2020-08-04 16:01 shaoyayu 阅读(227) 评论(0) 推荐(0)

Hadoop的HA高可用实验

摘要：Hadoop的HA高可用实验 1、免秘钥登录集群之间做免秘钥登录 2、简介目的本指南概述了HDFS高可用性（HA）功能以及如何使用Quorum Journal Manager（QJM）功能配置和管理HA HDFS群集。本文档假定读者对HDFS群集中的常规组件和节点类型有一般的了解。有关详细信阅读全文

posted @ 2020-08-04 15:56 shaoyayu 阅读(604) 评论(0) 推荐(0)

Hadoop HDFS 集群的分布式搭建

摘要：Hadoop集群的HA 1、简介 HA模式解决单点故障问题， 2、规划 NN-1 NN-2 DN ZK ZKFC JNN Node1 * * * Node2 * * * * * Node3 * * * Node4 * * ZK: zookeeper ZKFC: failover controller 阅读全文

posted @ 2020-08-04 15:55 shaoyayu 阅读(185) 评论(0) 推荐(0)

Zookeeper分布式协调服务

摘要：Zookeeper分布式协调服务 1、简介 zookeeper是一个分布式协调服务的框架，主要用来解决分布式集群中应用系统的一致性问题，例如如何避免同时操作导致数据脏读的问题等，Zookeeper本质上是一个分布式的小型文件存储系统，提供基于类似文件系统树方式的数据存储，并且可以对书中的节点进行阅读全文

posted @ 2020-08-04 15:53 shaoyayu 阅读(568) 评论(0) 推荐(0)

HDFS 2.0 介绍

摘要：Hadoop版本 1、Hadoop1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题？ 2、HDFS存在的问题 NameNode单点故障，难于应用于在线场景 HA 【high availability 高可用】 NameNode压力过大，且内存受限，影响扩展性 F【Federatio 阅读全文

posted @ 2020-08-04 15:51 shaoyayu 阅读(555) 评论(0) 推荐(0)

HDFS 全分布式集群搭建

摘要：全分布式集群搭建 1、系统配置 1.1、时间 1.2、JDK 1.3、免秘钥登录【我做的是节点之间免密登录，可以给主节点做单向的免秘钥登录】【服务器时间必须统一】【关闭防火墙，关闭安全机制】这里我就不做过多的笔记，后面还有很多的配置等着，10几分钟左右的事情。 2、修改配置文件：这是基于伪阅读全文

posted @ 2020-08-04 15:48 shaoyayu 阅读(265) 评论(0) 推荐(0)

HDFS 伪分布式集群搭建

摘要：伪分布式集群搭建 1、伪分布式搭建 1.1、先配置JDK环境上传后解压JDK到/usr/java/ export JAVA_HOME=/usr/java/jdk1.8.0_221 export JRE_HOME=/usr/java/jdk1.8.0_221/jre export CLASSPATH 阅读全文

posted @ 2020-08-04 15:45 shaoyayu 阅读(305) 评论(0) 推荐(0)

HDFS入门

摘要：HDFS入门简介：在现代的企业环境中，单机容量往往无法存储大量数据，需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中，引入网络，就不可避免地引入了所有网络编程的复杂性，例如挑战之一是如果保证在节点不可用的时候数据不丢失。传统的网络文件系统（NFS）虽然也称为分布阅读全文

posted @ 2020-08-04 15:35 shaoyayu 阅读(204) 评论(0) 推荐(0)

Hadoop-HDFS

摘要：Hadoop-HDFS 1、介绍 HDFS是Hadoop应用程序使用的主要分布式存储。HDFS群集主要由管理文件系统元数据的NameNode和存储实际数据的DataNode组成。《 HDFS体系结构指南》详细介绍了HDFS。本用户指南主要处理用户和管理员与HDFS群集的交互。HDFS体系结构图描述了阅读全文

posted @ 2020-08-04 15:29 shaoyayu 阅读(135) 评论(0) 推荐(0)

Hadoop介绍

摘要：Hadoop介绍什么是Apache Hadoop？ Apache™Hadoop®项目开发了用于可靠，可扩展的分布式计算的开源软件。 Apache Hadoop软件库是一个框架，该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器，每台机器都提供本地阅读全文

posted @ 2020-08-04 15:27 shaoyayu 阅读(256) 评论(0) 推荐(0)

shaoyayu

热爱微服务、数据中台、三维重建和孪生系统。

随笔分类 - Hadoop

公告