大数据学习 - 随笔分类 - 泷十三

大数据综合案例---网站点击流数据分析系统

摘要：大数据的学习告一段落，今天是大数据近些日子的最后一篇。这篇主要是一个思路，并没有代码啥的，也是将所学的东西，进行一个小的应用。最后希望大家都可以学习到东西，还是那句话，不懂就问我点击流数据即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接，在哪个网页停留时间最多，采用了哪个阅读全文

posted @ 2021-06-26 11:42 泷十三阅读(465) 评论(0) 推荐(0)

flume 简单学习

摘要：hive完事了今天辅助系统三个组件数据采集flume 任务调度 oozie 数据导出 sqoop 除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，任务调度 oozie Azkaban 工具对比最终拿到数据展现出来阅读全文

posted @ 2021-06-24 15:47 泷十三阅读(213) 评论(0) 推荐(0)

hive的简单学习

摘要：啥是hive？为啥学习它？ Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。因为直接使用MapReduce实现复杂查询逻辑开发难度格外的大，使用Hive能够使用类SQL语法，提供效率。有这么些个特点：可扩展（自由扩展规模），可延展（阅读全文

posted @ 2021-06-24 11:13 泷十三阅读(443) 评论(0) 推荐(0)

Spark RDD弹性分布式数据集

摘要：为啥要学Spark中的RDD？？ RDD的全称叫做Resilient Distributed Datasets，即弹性分布式数据集。之前我们学过MapReduce，它具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。Spar 阅读全文

posted @ 2021-06-24 08:34 泷十三阅读(279) 评论(0) 推荐(0)

spark简单学习

摘要：为啥学spark 中间结果输出：基于MapReduce的计算引擎通常会将中间结果输出到磁盘上，进行存储和容错。出于任务管道承接的，考虑，当一些查询翻译到MapReduce任务时，往往会产生多个Stage，而这些串联的Stage又依赖于底层文件系统（如HDFS）来存储每一个Stage的输出结果 Spa 阅读全文

posted @ 2021-06-22 17:58 泷十三阅读(195) 评论(0) 推荐(0)

scala简单学习

摘要：为啥学scala 因为简单，清晰，在windows下可以很直观的表现安装JDK 安装Scala（一直下一步就行） windows下安装不会的看这篇文章 windows下scala安装 linux下安装解包：tar -zxvf scala-2.11.8.tgz 配置环境变量 vim /etc/p 阅读全文

posted @ 2021-06-22 13:37 泷十三阅读(109) 评论(0) 推荐(0)

yarn的简单学习

摘要：什么是yarn？什么是yarn?如果你想知道什么是yarn的话，我马上带你去研究！ yarn，全名：Yet Another Resource Negotiator，中文名：另一种资源协调者它是hadoop集群的资源管理系统，从hadoop的第二个版本引入，yarn是新的hadoop资源管理器，因为阅读全文

posted @ 2021-06-21 11:51 泷十三阅读(438) 评论(0) 推荐(0)

zookeeper分布式部署及简单操作

摘要：这篇文章一共说了三个方面：Zookeeper分布式部署、与集群交流shell操作、与集群交流Java API操作 1.Zookeeper分布式部署搭建在很多台虚拟机上，就像是上一篇文章所说，需要有奇数个服务器才能投票，所以我们用2N+1台服务器来组成，所以我们就用3台就好啦 ①下载zookeep 阅读全文

posted @ 2021-06-17 18:55 泷十三阅读(215) 评论(0) 推荐(0)

zookeeper简单学习

摘要：今天引入zooKeeper，来解决一些问题首先还是那个问题？我们为啥学zooKeeper？为了解决高可用性，保证出现故障正常使用，在hadoop中的namenode有第二备份，什么时候告诉客户端namenode变了，变成什么了，这时候就需要工具来进行协调为了再次解决高可用性，这个工具不能挂掉没阅读全文

posted @ 2021-06-17 14:42 泷十三阅读(197) 评论(0) 推荐(0)

MapReduce模型

摘要：MapReduce对于大数据来说就是一个特别简单的青铜时代，现在我们可能用到的并不多，但是还要学一些，MapReduce用来处理分布式并行计算对为什么MapReduce被淘汰想了解一些的可以看以下这个 mapreduce为什么被淘汰了？ MapReduce是Hadoop系统核心组件之一，它是一种可阅读全文

posted @ 2021-06-16 20:30 泷十三阅读(237) 评论(0) 推荐(0)

基于Hadoop集群开发shell采集脚本

摘要：需求分析：生活中存在这样的情况，需要将同名日志文件进行上传周期性上传至指定文件夹中技术分析：定时调度器： Linux crontab crontab -e */5 * * * * $home/bin/command.sh //五分钟执行一次系统会自动执行脚本，每5分钟一次，执行时判断阅读全文

posted @ 2021-06-16 15:43 泷十三阅读(146) 评论(0) 推荐(0)

构建HDFS访问客户端对象

摘要：HDFS在生产生活中应用主要是客户端的开发，其核心步骤是从HDFS提供的API构建一个HDFS的访问客户端对象，通过该对象对HDFS上的文件进行增删改查 1.配置JAVA环境首先电脑里cmd输入java -version 查看版本，如果没有出现下面图片这样的现象，那么说明你没有JAVA环境，可以去阅读全文

posted @ 2021-06-16 15:27 泷十三阅读(128) 评论(0) 推荐(0)

HDFS的简单学习

摘要：上一篇文章将Hadoop环境搭建完毕，下面我们学习一些HDFS的工作原理 HDFS > 分布式文件系统简单说就是把很多数据文件分开放在很多的服务器上，采取分开的方式对很多很多的数据进行分析一.HDFS特点： 1、支持超大文件大数据有很多数据，所以能够通过HDFS对很多很多数据进行控制，这个其他阅读全文

posted @ 2021-06-15 19:13 泷十三阅读(219) 评论(0) 推荐(0)

Hadoop环境搭建

摘要：啥是大数据？问啥要学大数据？在我看来大数据就很多的数据，超级多，咱们日常生活中的数据会和历史一样，越来越多！！！大数据有四个特点(4V)：大多样快价值学完大数据我们可以做很多事，比如可以对许多单词进行次数查询（本节最后的实验），可以对股市进行分析，所有的学习都是为了赚大钱！（因为是在L 阅读全文

posted @ 2021-06-14 11:53 泷十三阅读(579) 评论(0) 推荐(0)

泷十三

随笔分类 - 大数据学习

公告