大数据学习 - 随笔分类 - _蒲公英_

大数据分析利器之Hive

摘要：1.数据仓库 1）数据仓库的基本概念数据仓库的英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面相分析的集成化数据环境，为企业提供决策支持（Decision Support）。它出于分析性报告和决策支持的目的而创建。数据仓库本身并不“生产”任何数据，同时自身也阅读全文

posted @ 2020-11-07 17:19 _蒲公英_ 阅读(1235) 评论(0) 推荐(0)

yarn架构

摘要：1.yarn的介绍 YARN（Yet Anthor Resource Negotiator），是Hadoop 的子项目，为分离Hadoop2.0资源管理和计算组件而引入。负责资源管理分配。yarn具有通用性，支持其他的分布式计算模式。支持：mapreduce、tez、hbase等等 2.yarn的阅读全文

posted @ 2020-09-30 11:32 _蒲公英_ 阅读(501) 评论(0) 推荐(0)

mapReduce中的Shuffle

摘要：简单介绍： Shuffle发生在map输出到reduce输入的过程，Shuffle翻译过来是“洗牌”，顾名思义该过程涉及数据的重新分配，主要分为map任务输出数组分区，排序，规约写入本地磁盘，reduce任务拉取文件排序。 Map端： map端输出时，先将数据写入内存中的环形缓冲区，默认大小为100 阅读全文

posted @ 2020-09-28 15:56 _蒲公英_ 阅读(522) 评论(0) 推荐(0)

ReduceTask工作机制

摘要：Copy阶段：ReduceTask从各个MapTask上远程拷贝一片数据，如果其大小超过一定的阈值，则写道磁盘上，否则直接放到内存中； Merge阶段：在远程拷贝数据的同时，ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多； Sort阶段：与Me 阅读全文

posted @ 2020-09-27 19:12 _蒲公英_ 阅读(317) 评论(0) 推荐(0)

MapTask工作机制

摘要：read阶段：maptask通过用户编写的RecordReader，从输入InputSplit中解析出一个个k，v对； map阶段：该节点主要是将解析出的k，v交给用户编写map()函数处理，并产生新的k，v； collect阶段：在用户编写map函数中，当数据处理完成后，一般调用OutputCol 阅读全文

posted @ 2020-09-27 16:44 _蒲公英_ 阅读(383) 评论(0) 推荐(0)

MapReduce编程

摘要：1.mapreduce的定义 MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架； MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并运行在一个Hadoop集群上； 2.mapreduce的核心思阅读全文

posted @ 2020-09-26 16:28 _蒲公英_ 阅读(901) 评论(0) 推荐(0)

hdfs小文件治理

摘要：1.大量小文件影响 NameNode存储着文件系统的元数据，每个文件、目录、块大概有150字节的元数据，因此文件数量的限制也由NameNode内存大小决定，如果小文件过多则会造成NameNode的压力过大，且hdfs能存储的数据量也会变小 2.HAR文件方案本质启动mr程序，需要启动yarn 用法阅读全文

posted @ 2020-09-23 14:40 _蒲公英_ 阅读(413) 评论(0) 推荐(0)

hdfs的Java Api开发

摘要：1.创建maven工程并导入jar包 jdk使用1.8、maven3.x版本 pom.xml添加一下内容 <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cl 阅读全文

posted @ 2020-04-08 23:43 _蒲公英_ 阅读(417) 评论(0) 推荐(0)

hdfs内幕解析

摘要：1.hdfs的架构以及block块和副本机制 hdfs分布式文件系统也是一个主从架构，主节点是我们的namenode，负责整个集群以及维护集群的元数据信息。从节点是datanode，主要负责文件数据存储。 hdfs将所有的文件全部抽象为block块来进行存储，不管文件大小，全部一视同仁都是以bloc 阅读全文

posted @ 2020-04-07 18:30 _蒲公英_ 阅读(204) 评论(0) 推荐(0)

hdfs的安全模式

摘要：安全模式是hdfs所处的一种特殊状态，在这种状态下，文件系统只接受读数据的请求，而不接受删除修改等变更请求。在NameNode主节点启动时，HDFS首先进入安全模式，DataNode在启动的时候会向namenode汇报可用的block等状态，在整个系统达到安全标准时（最小副本数不小于99.9%，小于阅读全文

posted @ 2020-04-06 23:49 _蒲公英_ 阅读(495) 评论(0) 推荐(0)

hdfs的shell操作

摘要：1.shell的操作命令 hdfs命令有两种风格：hadoop fs、hdfs dfs 两种命令均可使用，效果相同。 1）查看子命令 hadoop fs、hdfs dfs 2）如果查看hdfs或hadoop子命令信息 hdfs dfs -help shellCmd hadoop fs -help s 阅读全文

posted @ 2020-04-06 23:14 _蒲公英_ 阅读(983) 评论(0) 推荐(0)

Macbook 安装VMware专业版11.0.1

摘要：软件版本：VMware Fusion 11.0.1 系统版本：MacOs 10.15.4 1.下载VMware Fusion 百度网盘下载地址密码: 8dcd 2.安装并破解VM（商用请使用正版） a.双击下图文件 b.出现下图双击图标 c.出现下图点击打开 d.安装并输入激活码。 3.关闭自动更阅读全文

posted @ 2020-04-04 17:37 _蒲公英_ 阅读(1905) 评论(0) 推荐(0)

hdfs功能详解

摘要：1.分布式文件系统理解使用低配置电脑配置成集群，存储管理单台电脑不能处理的大型文件。直观理解三个臭皮匠，顶个诸葛亮。很多磁盘加一起就可以装超多电影。类似于你出5毛，我出5毛，我们一起凑一块。 2.hdfs优缺点优点： a.高容错性：数据自动保存多个副本；通过增加副本的形式，提高容错性。一个阅读全文

posted @ 2020-04-03 15:55 _蒲公英_ 阅读(1204) 评论(0) 推荐(0)

Hadoop简介

摘要：1.Hadoop的发展历史起源介绍 a.Hadoop最早起源于Nutch、Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询的功能，但随着抓取网页数量的增加，遇到了严重的可扩展的问题——如何解决数10亿网页的存储和索引问题。 b.2003、2004年谷歌发表的两篇论文为该问题阅读全文

posted @ 2020-04-03 11:30 _蒲公英_ 阅读(483) 评论(0) 推荐(0)

windows下Maven安装

摘要：maven安装推荐使用3.3.x版本下载页面下载完成解压到无中文、空格的目录下，我是解压在c盘设置环境变量右键我的电脑-》属性》高级环境设置-》环境变量系统变量新建MAVEN_HOME 双击环境变量Path 设置bin环境目录多次点击确定到关闭高级环境设置窗口测试： Win + r 建阅读全文

posted @ 2020-03-24 15:21 _蒲公英_ 阅读(170) 评论(0) 推荐(0)

windows下Idea2019.3.4的安装与破解

摘要：声明：这是只是作为学习使用，商用使用还是请支持正版 Idea2019下载页面下载Windows Ultimate 版本（付费版）双击安装修改安装目录 ps：为了避免hadoop开发出错安装目录不要有空格和中文其他选项默认即可下载破解文件参考链接为了避免丢失把下载后的破解文件放在了安装目阅读全文

posted @ 2020-03-24 14:30 _蒲公英_ 阅读(10398) 评论(0) 推荐(0)

大数据小白零基础学习大数据分享

摘要：目录序言第一章 Windows下基础环境搭建 1.1 jdk安装 1.2 Scala安装 1.3 Maven安装 1.4 Idea安装破解 1.5 VM安装与Linux虚拟机配置 1.6 Linux虚拟机网络配置阅读全文

posted @ 2020-03-24 12:00 _蒲公英_ 阅读(256) 评论(0) 推荐(0)

windows下jdk按装

摘要：课程里推荐安装jdk1.8，一般的企业普遍也是在使用jdk1.8，所以我这里也是安装的1.8版本进入oracle官网下载页面选择合适的版本下载，我这里选的是Windows64位双击安装包点击下一步到选择存储路径ps：hadoop开发路径不可以有空格和中文默认安装目录里带有空格所以要换目录我阅读全文

posted @ 2020-03-24 11:58 _蒲公英_ 阅读(157) 评论(0) 推荐(0)

windows下Scala安装

摘要：课程使用2.11.8版本打开scala2.11.8下载页面拉倒页面最下方，点击Source code(zip)进行下载解压到指定文件夹这里为了避免出现问题，也是解压到不含空格和中文的目录我这里是解压到了C盘解压后进行环境变量配置右键我的电脑-》属性-》高级环境设置-》环境变量双击系统变阅读全文

posted @ 2020-03-24 11:57 _蒲公英_ 阅读(1197) 评论(0) 推荐(0)

随笔分类 - 大数据学习

公告