随笔分类 - Hadoop
摘要:idea 远程提交spark作业 java.io.IOException: Failed to connect to DESKTOP-H 1 报错日志 Exception in thread "main" java.lang.reflect.UndeclaredThrowableException
阅读全文
摘要:1.什么时Hadoop的分布式缓存答:在执行MapReduce时,可能Mapper之间需要共享一些信息,如果信息量不大,可以将其从HDFS中加载到内存中,这就是Hadoop分布式缓存机制。2.如何使用缓存机制答:在main方法中加载共享文件的HDFS路径,路径可以是目...
阅读全文
摘要:1.MapReduce基础概念答:MapReduce作业时一种大规模数据的并行计算的便程模型。我们可以将HDFS中存储的海量数据,通过MapReduce作业进行计算,得到目标数据。2.MapReduce的四个阶段答:Split阶段、Map阶段(需要编码)、Shuffl...
阅读全文
摘要:1.Hadoop2.0与1.0答:Hadoop2.0之后的版本移除了原有的JobTracker和TaskTracker,改由Yarn平台的ResourceManager负责集群中所有资源的管理和分配,NodeManager管理集群中单个计算节点。2.Yarn平台答:Y...
阅读全文
摘要:1.什么是MapReduce答:简而言之,就是将一个大任务分成多个小的子任务(Map),并行执行后,合并结果(Reduce)。下面举一个纸牌得栗子 2.MapReduce的运行流程 3.JobTracker角色答:1.作业调度。2.分配任务、监控任务执行进度。3.监控...
阅读全文
摘要:1.列出hadoop下面的目录,hadoop fs -ls / 进入userhadoop fs ls /user2.再usr/root下新建input目录hadoop -mkdir input3.把本地文件放到上述目录下hadoop fs -put hadoop-si...
阅读全文
摘要:1.HDFS的基本概念答:块(Block)、NameNode、DataNode。HDFS的文件被分成块进行存储,默认块的大小为64M,所以说块是文件存储和处理的逻辑单元。NameNode是管理节点,存储文件元数据,包括文件与数据块的映射、数据块与数据节点的映射表。Da...
阅读全文
摘要:1.安装Hadoop的三大步骤答:1.Linux环境,2.JDK环境,3.配置Hadoop。2.安装Linux答:利用阿里云,腾讯云等公有云。选择Ubuntu进行安装,然后利用小putty进行操作。3.安装JDK,设置环境变量答:命令:ls,javac看是否安装有jd...
阅读全文
摘要:1.Hadoop是什么?答:Hadoop是开源的分布式存储和分布式计算平台。2.Hadoop的组成是什么?答:Hadoop由HDFS和MapReduce这两个核心部分组成。 HDFS(Hadoop Distribute File System)即Hadoo...
阅读全文