2020 年 3月 28 日随笔档案 - hdc520

Hive的面试整理

摘要： 1、hive的作用： hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。相对于mapreduce 离线计算需要写很多java代码去实现数据提取，hive可以通过类SQL语句快速实阅读全文

posted @ 2020-03-28 17:45 hdc520 阅读(737) 评论(0) 推荐(0)

Spark面试整理

摘要：一、spark的优势： 1、每一个作业独立调度，可以把所有的作业做一个图进行调度，各个作业之间相互依赖，在调度过程中一起调度，速度快。 2、所有过程都基于内存，所以通常也将Spark称作是基于内存的迭代式运算框架。 3、spark提供了更丰富的算子，让操作更方便。二、为什么Spark比Map Re 阅读全文

posted @ 2020-03-28 17:29 hdc520 阅读(3009) 评论(0) 推荐(2)

Hadoop面试整理

摘要： 1、Hadoop1.x和2.x之间的区别：Hadoop 1.0主要由两个分支组成：MapReduce和HDFS，在高可用、扩展性等方面存在问题（1）HDFS存在的问题 1）NameNode单点故障，难以应用于在线场景。 2）NameNode压力过大，且内存受限，影响扩展性。（2）MapReduc 阅读全文

posted @ 2020-03-28 17:20 hdc520 阅读(3356) 评论(0) 推荐(0)

hdc520

Hive的面试整理

Spark面试整理

Hadoop面试整理

导航

公告