随笔分类 - hadoop
摘要:一、概述: 在实际使用hadoop的过程中,由于涉及到多台服务器、每台机器上可能还有多个服务等。所以当集群环境出现问题时,快速定位到错误出现的地方尤为重要。 在排查错误的过程中,基本上就是通过既有的工具来检测集群的运行时环境、集群日志等来分析导致错误的原因。 二、Java heap: hadoop需要运行在Java运行时环境之上。因此jvm中的内存分配是否处于合理的状态,就是需要检测的一个...
阅读全文
摘要:一、安装模式介绍: Hive官网上介绍了Hive的3种安装方式,分别对应不同的应用场景。 1、内嵌模式(元数据保村在内嵌的derby种,允许一个会话链接,尝试多个会话链接时会报错) 2、本地模式(本地安装mysql 替代derby存储元数据) 3、远程模式(远程安装mysql 替代derby存储元数据) 二、安装环境以及前提说明: 首先,Hi...
阅读全文
摘要:此种方式不能直接在eclipse中调试代码。 首先需要在src下放置服务器上的hadoop配置文件:core-site.xml\yarn-site.xml\hdfs-site.xml\mapred-site.xml 1、在本地直接调用,执行过程在服务器上(真正企业运行环境) a、首先把MR程序打包(jar),直接放到本地,比如C:\\Users\\Administrator\\Des...
阅读全文
摘要:本文的目的是实现在windows环境下实现模拟运行Map/Reduce程序。最终实现效果:MapReduce程序不会被提交到实际集群,但是运算结果会写入到集群的HDFS系统中。 一、环境说明: 操作系统:win7 eclipse:Version: Mars Release (4.5.0) hadoop:2.5.1 二、预备文档(仅是说明,以第三步为准): Sys...
阅读全文
摘要:一、环境说明: 操作系统:Centos6.5 Linux node1 2.6.32-431.el6.x86_64 #1 SMP Fri Nov 22 03:15:09 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux jdk版本:java version "1.7.0...
阅读全文
摘要:一、环境说明: 操作系统:Centos6.5 Linux node1 2.6.32-431.el6.x86_64 #1 SMP Fri Nov 22 03:15:09 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux jdk版本:java version "1.7.0_79" hadoop版本:Apache hadoop-2.5.2...
阅读全文
摘要:一、hadoop2.0安装部署流程 1、自动安装部署:Ambari、Minos(小米)、Cloudera Manager(收费) 2、使用RPM包安装部署:Apache hadoop不支持、HDP与CDH提供 3、使用jar包安装部署:各版本均提供。(初期为了理解hadoop,建议使用这种方式) 部署流程: ...
阅读全文
摘要:一、HDFS概述 优点:高容错性、适合批处理、适合大数据处理、流式文件访问:一次写入,多次读取。 缺点:不适合低延迟数据访问、不适合小文件存取(受限于NameNode)、不适合并发写入。 二、HDFS基本架构和原理 考虑一个问题:如何实现一个分布式文件系统? 业务场景:目前有几个T级别的大文件,有数个大容量存储主机。 ...
阅读全文
摘要:原文地址:http://www.ttlsa.com/log-system/scribe-chukwa-kafka-flume-log-system-contrast/ 1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2...
阅读全文
摘要:一、hadoop生态系统特点 开源、社区活跃、涉及分布式存储和计算的整个生态系统、已得到企业界验证。 hadoop1.0与2.0版本的比较: 1.0包含HDFS+MapReduce。 2.0包括HDFS+YARN+MapReduce+Others 主要区别在于引入了YARN层。集群资源管理层。二、h...
阅读全文

浙公网安备 33010602011771号