《大数据技术原理与应用》第二版-第二章大数据处理架构Hadoop
2.1概述
- Hadoop是Apache旗下的开源分布式计算平台,是基于Java开发的,具有很好的跨平台特性,其中核心文件是MapReduce和HDFS,而HDFS是根据谷歌文件系统GFS开源实现,是面向普通硬件环境的分布式文件系统,具有很好的容错性和很高的读写速度。MapReduce是根据谷歌的MapReduce开源实现的,允许用户在不了解分布式系统底层实现原理的情况下进行并行程序开发。
- 分布式存储、分布式处理
- 高可靠性、高效性、高扩展性、高容错性、成本低、运行在Linux上、支持多种编程语言开发。
2.3安装与使用
- 单机模式:Hadoop默认模式为非分布式(本地模式),无需进行其他配置即可进行运行。非分布式即单Java进程,方便进行调试。
- 伪分布式模式:Hadoop可以在单节点上以伪分布式的方式进行运行,Hadoop进程以分离的Java进程来运行,既可以作为NameNode,也可以作为DataNode,同时,读取HDFS中的文件。
- 分布式模式:使用多个节点构成集群环境运行Hadoop。
- 三种Shell方式区别:
- Hadoop fs 适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统
- hadoop dfs 只是用于HDFS文件系统
- hdfs dfs跟hadoop dfs的命令作用一样,也只能适用于HDFS
作者:睿晞
身处这个阶段的时候,一定要好好珍惜,这是我们唯一能做的,求学,钻研,为人,处事,交友……无一不是如此。
劝君莫惜金缕衣,劝君惜取少年时。花开堪折直须折,莫待无花空折枝。
曾有一个业界大牛说过这样一段话,送给大家:
“华人在计算机视觉领域的研究水平越来越高,这是非常振奋人心的事。我们中国错过了工业革命,错过了电气革命,信息革命也只是跟随状态。但人工智能的革命,我们跟世界上的领先国家是并肩往前跑的。能身处这个时代浪潮之中,做一番伟大的事业,经常激动的夜不能寐。”
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利.

浙公网安备 33010602011771号