随笔分类 -  大数据学习

HADOOP、 HDFS 、MapReduce、zookeeper、yarn、hive、flume、azkaban、sqoop、scala、spark基础、rdd、hbase、kafka的简单学习
摘要:大数据的学习告一段落,今天是大数据近些日子的最后一篇。 这篇主要是一个思路,并没有代码啥的,也是将所学的东西,进行一个小的应用。 最后希望大家都可以学习到东西,还是那句话,不懂就问我 点击流数据即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,在哪个网页停留时间最多,采用了哪个 阅读全文
posted @ 2021-06-26 11:42 泷十三 阅读(465) 评论(0) 推荐(0)
摘要:hive完事了 今天辅助系统 三个组件 数据采集flume 任务调度 oozie 数据导出 sqoop 除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统, 任务调度 oozie Azkaban 工具对比 最终拿到数据展现出来 阅读全文
posted @ 2021-06-24 15:47 泷十三 阅读(213) 评论(0) 推荐(0)
摘要:啥是hive?为啥学习它? Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 因为直接使用MapReduce实现复杂查询逻辑开发难度格外的大,使用Hive能够使用类SQL语法,提供效率。 有这么些个特点:可扩展(自由扩展规模),可延展( 阅读全文
posted @ 2021-06-24 11:13 泷十三 阅读(443) 评论(0) 推荐(0)
摘要:为啥要学Spark中的RDD?? RDD的全称叫做Resilient Distributed Datasets,即弹性分布式数据集。 之前我们学过MapReduce,它具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。Spar 阅读全文
posted @ 2021-06-24 08:34 泷十三 阅读(279) 评论(0) 推荐(0)
摘要:为啥学spark 中间结果输出:基于MapReduce的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。出于任务管道承接的,考虑,当一些查询翻译到MapReduce任务时,往往会产生多个Stage,而这些串联的Stage又依赖于底层文件系统(如HDFS)来存储每一个Stage的输出结果 Spa 阅读全文
posted @ 2021-06-22 17:58 泷十三 阅读(195) 评论(0) 推荐(0)
摘要:为啥学scala 因为简单,清晰,在windows下可以很直观的表现 安装JDK 安装Scala(一直下一步就行) windows下安装 不会的看这篇文章 windows下scala安装 linux下安装 解包:tar -zxvf scala-2.11.8.tgz 配置环境变量 vim /etc/p 阅读全文
posted @ 2021-06-22 13:37 泷十三 阅读(109) 评论(0) 推荐(0)
摘要:什么是yarn?什么是yarn?如果你想知道什么是yarn的话,我马上带你去研究! yarn,全名:Yet Another Resource Negotiator,中文名:另一种资源协调者 它是hadoop集群的资源管理系统,从hadoop的第二个版本引入,yarn是新的hadoop资源管理器,因为 阅读全文
posted @ 2021-06-21 11:51 泷十三 阅读(438) 评论(0) 推荐(0)
摘要:这篇文章一共说了三个方面:Zookeeper分布式部署、 与集群交流shell操作、与集群交流Java API操作 1.Zookeeper分布式部署 搭建在很多台虚拟机上,就像是上一篇文章所说,需要有奇数个服务器才能投票,所以我们用2N+1台服务器来组成,所以我们就用3台就好啦 ①下载zookeep 阅读全文
posted @ 2021-06-17 18:55 泷十三 阅读(215) 评论(0) 推荐(0)
摘要:今天引入zooKeeper,来解决一些问题 首先还是那个问题?我们为啥学zooKeeper? 为了解决高可用性,保证出现故障正常使用,在hadoop中的namenode有第二备份,什么时候告诉客户端namenode变了,变成什么了,这时候就需要工具来进行协调 为了再次解决高可用性,这个工具不能挂掉没 阅读全文
posted @ 2021-06-17 14:42 泷十三 阅读(197) 评论(0) 推荐(0)
摘要:MapReduce对于大数据来说就是一个特别简单的青铜时代,现在我们可能用到的并不多,但是还要学一些,MapReduce用来处理分布式并行计算 对为什么MapReduce被淘汰想了解一些的可以看以下这个 mapreduce为什么被淘汰了? MapReduce是Hadoop系统核心组件之一,它是一种可 阅读全文
posted @ 2021-06-16 20:30 泷十三 阅读(237) 评论(0) 推荐(0)
摘要:需求分析: 生活中存在这样的情况,需要将同名日志文件进行上传周期性上传至指定文件夹中 技术分析: 定时调度器: ​ Linux crontab ​ crontab -e */5 * * * * $home/bin/command.sh //五分钟执行一次 系统会自动执行脚本,每5分钟一次,执行时判断 阅读全文
posted @ 2021-06-16 15:43 泷十三 阅读(146) 评论(0) 推荐(0)
摘要:HDFS在生产生活中应用主要是客户端的开发,其核心步骤是从HDFS提供的API构建一个HDFS的访问客户端对象,通过该对象对HDFS上的文件进行增删改查 1.配置JAVA环境 首先电脑里cmd输入java -version 查看版本,如果没有出现下面图片这样的现象,那么说明你没有JAVA环境,可以去 阅读全文
posted @ 2021-06-16 15:27 泷十三 阅读(128) 评论(0) 推荐(0)
摘要:上一篇文章将Hadoop环境搭建完毕,下面我们学习一些HDFS的工作原理 HDFS > 分布式文件系统 简单说就是把很多数据文件分开放在很多的服务器上,采取分开的方式对很多很多的数据进行分析 一.HDFS特点: 1、支持超大文件 大数据有很多数据,所以能够通过HDFS对很多很多数据进行控制,这个其他 阅读全文
posted @ 2021-06-15 19:13 泷十三 阅读(219) 评论(0) 推荐(0)
摘要:啥是大数据?问啥要学大数据? 在我看来大数据就很多的数据,超级多,咱们日常生活中的数据会和历史一样,越来越多!!! 大数据有四个特点(4V):大 多样 快 价值 学完大数据我们可以做很多事,比如可以对许多单词进行次数查询(本节最后的实验),可以对股市进行分析,所有的学习都是为了赚大钱! (因为是在L 阅读全文
posted @ 2021-06-14 11:53 泷十三 阅读(579) 评论(0) 推荐(0)