随笔分类 - Hadoop
1
hadoop 大数据笔记
摘要:HBase 与 MapReduce 整合 phoenix.apache.org Mapreduce运行3种方式 本地方式运行: pc环境 1.1、将 Hadoop安装本地解压 1.2、配置 Hadoop的环境变量 添加%HADOOP_HOME% 修改%PATH%添加%HADOOP_HOME%/bin
阅读全文
摘要:TFIDF 案列 概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 字词的重要性随着它在文件中出现的次
阅读全文
摘要:PageRank案列 什么是pagerank PageRank是Google提出的算法,用于衡量特定网页相对于搜索引擎索弓中的其他网页而言的重要程度。 是Google创始人拉里佩奇和谢尔盖布林于1997年创造的 PageRank实现了将链接价值概念作为排名因素。 计算环境 Hadoop-2.5.2
阅读全文
摘要:MapReduce好友推荐案例 好友序列 tom hello hadoop cat world hadoop hello hive cat tom hive mr hive hello hive cat hadoop world hello mr hadoop tom hive world hell
阅读全文
摘要:MapReduce天气查询实列 天气统计案例 2000-01-01 16 29 2000-01-02 14 40 2000-01-03 23 35 2000-01-04 18 25 2000-01-05 14 33 2000-01-06 14 -4 ...... 2000-01-18 23 26 2
阅读全文
摘要:MapReduce源码分析 Job waitForCompletion方法 public boolean waitForCompletion(boolean verbose ) throws IOException, InterruptedException, ClassNotFoundExcept
阅读全文
摘要:MapReduce api实战 配置pmx <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLS
阅读全文
摘要:配置YARN高可用 官方文档:https://hadoop.apache.org/docs/r2.7.5/ 1、Configure parameters as follows:etc/hadoop/mapred-site.xml: <configuration> <property> <name>m
阅读全文
摘要:Yarn 分布式资源调度 MapReduce的不足 参考文章:https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/ yarn体系结构 yarn(yet Another Resources Negotiation,另一种
阅读全文
摘要:MapReduce 案例与概述 官方简介 Overview Hadoop MapReduce is a software framework for easily writing applications which process vast amounts of data (multi-terab
阅读全文
摘要:伪分布式集群搭建 1、伪分布式搭建 1.1、先配置JDK环境 上传后解压JDK到/usr/java/ export JAVA_HOME=/usr/java/jdk1.8.0_221 export JRE_HOME=/usr/java/jdk1.8.0_221/jre export CLASSPATH
阅读全文
摘要:Hadoop的HA高可用实验 1、免秘钥登录 集群之间做免秘钥登录 2、简介 目的 本指南概述了HDFS高可用性(HA)功能以及如何使用Quorum Journal Manager(QJM)功能配置和管理HA HDFS群集。 本文档假定读者对HDFS群集中的常规组件和节点类型有一般的了解。有关详细信
阅读全文
摘要:Hadoop集群的HA 1、简介 HA模式解决单点故障问题, 2、规划 NN-1 NN-2 DN ZK ZKFC JNN Node1 * * * Node2 * * * * * Node3 * * * Node4 * * ZK: zookeeper ZKFC: failover controller
阅读全文
摘要:Zookeeper分布式协调服务 1、简介 zookeeper是一个分布式协调服务的框架,主要用来解决分布式集群中应用系统的一致性问题,例如如何避免同时操作导致数据脏读的问题等,Zookeeper本质上是一个分布式的小型文件存储系统,提供基于类似文件系统树方式的数据存储,并且可以对书中的节点进行
阅读全文
摘要:Hadoop版本 1、Hadoop1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题? 2、HDFS存在的问题 NameNode单点故障,难于应用于在线场景 HA 【high availability 高可用】 NameNode压力过大,且内存受限,影响扩展性 F【Federatio
阅读全文
摘要:全分布式集群搭建 1、系统配置 1.1、时间 1.2、JDK 1.3、免秘钥登录 【我做的是节点之间免密登录,可以给主节点做单向的免秘钥登录】 【服务器时间必须统一】 【关闭防火墙,关闭安全机制】 这里我就不做过多的笔记,后面还有很多的配置等着,10几分钟左右的事情。 2、修改配置文件: 这是基于伪
阅读全文
摘要:伪分布式集群搭建 1、伪分布式搭建 1.1、先配置JDK环境 上传后解压JDK到/usr/java/ export JAVA_HOME=/usr/java/jdk1.8.0_221 export JRE_HOME=/usr/java/jdk1.8.0_221/jre export CLASSPATH
阅读全文
摘要:HDFS入门 简介: 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中,引入网络,就不可避免地引入了所有网络编程的复杂性,例如挑战之一是如果保证在节点不可用的时候数据不丢失。 传统的网络文件系统(NFS)虽然也称为分布
阅读全文
摘要:Hadoop-HDFS 1、介绍 HDFS是Hadoop应用程序使用的主要分布式存储。HDFS群集主要由管理文件系统元数据的NameNode和存储实际数据的DataNode组成。《 HDFS体系结构指南》详细介绍了HDFS。本用户指南主要处理用户和管理员与HDFS群集的交互。HDFS体系结构图描述了
阅读全文
摘要:Hadoop介绍 什么是Apache Hadoop? Apache™Hadoop®项目开发了用于可靠,可扩展的分布式计算的开源软件。 Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地
阅读全文
1

浙公网安备 33010602011771号