摘要: hive完事了 今天辅助系统 三个组件 数据采集flume 任务调度 oozie 数据导出 sqoop 除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统, 任务调度 oozie Azkaban 工具对比 最终拿到数据展现出来 阅读全文
posted @ 2021-06-24 15:47 泷十三 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 啥是hive?为啥学习它? Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 因为直接使用MapReduce实现复杂查询逻辑开发难度格外的大,使用Hive能够使用类SQL语法,提供效率。 有这么些个特点:可扩展(自由扩展规模),可延展( 阅读全文
posted @ 2021-06-24 11:13 泷十三 阅读(392) 评论(0) 推荐(0) 编辑
摘要: 为啥要学Spark中的RDD?? RDD的全称叫做Resilient Distributed Datasets,即弹性分布式数据集。 之前我们学过MapReduce,它具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。Spar 阅读全文
posted @ 2021-06-24 08:34 泷十三 阅读(220) 评论(0) 推荐(0) 编辑