摘要: 初始Hadoop hadoop概述 查看官网,了解hadoop是一个开源的可靠的可扩展的分布式框架,它有很多的组件,比如Common,HDFS YARN,MapReduce. 1. Common:支持其他Hadoop模块的常用实用程序 2. HDFS:是一个分布式文件系统,提供对应用程序数据的高吞吐 阅读全文
posted @ 2018-09-16 10:14 adragon 阅读(1215) 评论(0) 推荐(0)
摘要: 大数据概述 题外话(提两个概念) 1. 分布式:以缩短单个任务的执行时间来提高效率的。 2. 集群:集群则是通过提高单位时间内执行的任务数来提高效率。 例如: 如果一个任务由10个子任务组成,每个子任务单独执行需1小时,则在一台服务器上执行改任务需10小时。 采用分布式方案,提供10台服务器,每台服 阅读全文
posted @ 2018-09-16 10:11 adragon 阅读(1034) 评论(0) 推荐(0)
摘要: Hbase入门 简介 HBase是一个构建在HDFS之上的,分布式的,面向列的开源数据库,由Google BigTable的开源 实现,它主要用于存储海量数据,是Hadoop生态系统中的重要一员。 HBase的优势 成熟 1. 社区成熟 2. 理论充分经过实践 3. 丰富的工具支持 高效 1. 将随 阅读全文
posted @ 2018-09-16 10:06 adragon 阅读(277) 评论(0) 推荐(0)