摘要: 一、Flume概论 1. 定义 ​ Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传 输的系统。Flume 基于流式架构,灵活简单。 Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。 2.基础架构 Agent Agent 阅读全文
posted @ 2021-10-04 19:43 Yuutmoo 阅读(91) 评论(0) 推荐(0)
摘要: 一、Hive基本概念 hive简介 由 Facebook 开源用于解决海量结构化日志的数据统计工具。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能。 Hive本质:讲HQL转化成MapReduce程序。 处理的数据存储再HDFS 阅读全文
posted @ 2021-09-25 20:30 Yuutmoo 阅读(62) 评论(0) 推荐(0)
摘要: 个人PSP(四则运算) 题目要求:能自动生成小学四则运算题目,且每一道题目的运算结果不能为负。除了支持整数运算外,还要支持真分数四则运算。 工具清单: Java,Js,Maven,Tomcat,MySQL PSP表格 预计耗时(分钟) 实际耗时(分钟) Planning 计划 20 20 Estim 阅读全文
posted @ 2021-09-21 17:20 Yuutmoo 阅读(84) 评论(0) 推荐(0)
摘要: 个人学习笔记,内容来源尚硅谷大学 一、HDFS定义 ​ 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 HDFS(Hadoop 阅读全文
posted @ 2021-09-11 00:01 Yuutmoo 阅读(256) 评论(0) 推荐(0)
摘要: 仅是个人学习记录,内容来源尚硅谷大学 1、Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础框架。主要解决,海量数据的存储和海量数据的分析计算问题。广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 2、Hadoop优势 高可靠性:Hadoop底层 阅读全文
posted @ 2021-09-10 19:28 Yuutmoo 阅读(79) 评论(0) 推荐(0)