随笔分类 -  Big Data

摘要: 阅读全文
posted @ 2020-03-10 10:57 拔丝小红薯 阅读(125) 评论(0) 推荐(0)
摘要:一:MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发"基于Hadoop的数据分析应用"的核心框架。 它的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并运行在Hadoop集群上。 二:MapReduce优缺点 1:优点 (1)它易 阅读全文
posted @ 2020-03-10 10:42 拔丝小红薯 阅读(457) 评论(0) 推荐(0)
摘要:YARN负责管理调度各个节点上的内存。 阅读全文
posted @ 2020-03-10 10:31 拔丝小红薯 阅读(84) 评论(0) 推荐(0)
摘要:HDFS负责将数据存储到各个节点,以及管理它们。 阅读全文
posted @ 2020-03-10 10:22 拔丝小红薯 阅读(99) 评论(0) 推荐(0)
摘要:一:什么是Hadoop? (1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构 (2)主要解决海量数据的存储和计算问题 (3)广义来讲,Hadoop指的是Hadoop生态圈 二:Hadoop三大发行版本 (1)Apache:最基础原始的版本,适合入门学习 (2)Cloudera:在 阅读全文
posted @ 2020-03-10 09:57 拔丝小红薯 阅读(249) 评论(0) 推荐(0)
摘要:一:什么是大数据 大数据本身指的是海量的数据 数据存储单位:bit Byte KB MB GB TB PB EB ZB YB BB NB DB 工作所说的大数据是解决海量数据的存储和海量数据的分析计算的一种处理模式 二:大数据特点 1:Volume(大量) 当前,典型个人计算机硬盘的容量为TB级别, 阅读全文
posted @ 2020-03-09 15:49 拔丝小红薯 阅读(2927) 评论(0) 推荐(0)