Hadoop集群
1、大数据有哪些特点?
1.Volume(大量)
2.Velocity(高速)
3.Variety(多样)
4.Value(低价值密度)
2、什么是大数据?
大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
3、大数据是用来解决什么的?
主要解决,海量数据的存储和海量数据的分析计算问题。
4、What is Hadoop?
1。Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2.主要解决,海量数据的存储和海量数据的分析计算问题
3.广义上说,Hadoop通常是指一个更广泛的概念--Hadoop生态圈
5、Hadoop有哪些优势?
1.高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失
2高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点
3高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度
4高容错性:能够自动将失败的任务重新分配
6、sudo命令用处?
可以让普通用户执行只有root用户才能执行的命令
7、使用sudo时有几点需要注意的?
1.要尊重别人的隐私
2.三思而后行
3权利越大,责任越大
8、Hadoop 2个组件-HDFS\YARN,1个思想(框架)MapReduce,它们的组成架构。
HDFS:Namenode、DataNode、SecondaryNameNode
YARN:ResourceManager、NodeManager、ApplicationManater、Container
MapReduce:Map、Reduce
9、中大型企业,大数据部门都由什么组成?
平台组、数据仓库组、实时组、数据挖掘组、报表开发组

浙公网安备 33010602011771号