随笔分类 - 大数据学习
摘要:1.数据仓库 1)数据仓库的基本概念 数据仓库的英文名称为Data Warehouse,可简写为DW或DWH。 数据仓库的目的是构建面相分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持的目的而创建。 数据仓库本身并不“生产”任何数据,同时自身也
阅读全文
摘要:1.yarn的介绍 YARN(Yet Anthor Resource Negotiator),是Hadoop 的子项目,为分离Hadoop2.0资源管理和计算组件而引入。负责资源管理分配。yarn具有通用性,支持其他的分布式计算模式。 支持:mapreduce、tez、hbase等等 2.yarn的
阅读全文
摘要:简单介绍: Shuffle发生在map输出到reduce输入的过程,Shuffle翻译过来是“洗牌”,顾名思义该过程涉及数据的重新分配,主要分为map任务输出数组分区,排序,规约写入本地磁盘,reduce任务拉取文件排序。 Map端: map端输出时,先将数据写入内存中的环形缓冲区,默认大小为100
阅读全文
摘要:Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,如果其大小超过一定的阈值,则写道磁盘上,否则直接放到内存中; Merge阶段:在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多; Sort阶段:与Me
阅读全文
摘要:read阶段:maptask通过用户编写的RecordReader,从输入InputSplit中解析出一个个k,v对; map阶段:该节点主要是将解析出的k,v交给用户编写map()函数处理,并产生新的k,v; collect阶段:在用户编写map函数中,当数据处理完成后,一般调用OutputCol
阅读全文
摘要:1.mapreduce的定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架; MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并运行在一个Hadoop集群上; 2.mapreduce的核心思
阅读全文
摘要:1.大量小文件影响 NameNode存储着文件系统的元数据,每个文件、目录、块大概有150字节的元数据,因此文件数量的限制也由NameNode内存大小决定,如果小文件过多则会造成NameNode的压力过大,且hdfs能存储的数据量也会变小 2.HAR文件方案 本质启动mr程序,需要启动yarn 用法
阅读全文
摘要:1.创建maven工程并导入jar包 jdk使用1.8、maven3.x版本 pom.xml添加一下内容 <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cl
阅读全文
摘要:1.hdfs的架构以及block块和副本机制 hdfs分布式文件系统也是一个主从架构,主节点是我们的namenode,负责整个集群以及维护集群的元数据信息。从节点是datanode,主要负责文件数据存储。 hdfs将所有的文件全部抽象为block块来进行存储,不管文件大小,全部一视同仁都是以bloc
阅读全文
摘要:安全模式是hdfs所处的一种特殊状态,在这种状态下,文件系统只接受读数据的请求,而不接受删除修改等变更请求。在NameNode主节点启动时,HDFS首先进入安全模式,DataNode在启动的时候会向namenode汇报可用的block等状态,在整个系统达到安全标准时(最小副本数不小于99.9%,小于
阅读全文
摘要:1.shell的操作命令 hdfs命令有两种风格:hadoop fs、hdfs dfs 两种命令均可使用,效果相同。 1)查看子命令 hadoop fs、hdfs dfs 2)如果查看hdfs或hadoop子命令信息 hdfs dfs -help shellCmd hadoop fs -help s
阅读全文
摘要:软件版本:VMware Fusion 11.0.1 系统版本:MacOs 10.15.4 1.下载VMware Fusion 百度网盘下载地址 密码: 8dcd 2.安装并破解VM(商用请使用正版) a.双击下图文件 b.出现下图双击图标 c.出现下图点击打开 d.安装并输入激活码。 3.关闭自动更
阅读全文
摘要:1.分布式文件系统理解 使用低配置电脑配置成集群,存储管理单台电脑不能处理的大型文件。 直观理解三个臭皮匠,顶个诸葛亮。 很多磁盘加一起就可以装超多电影。 类似于你出5毛,我出5毛,我们一起凑一块。 2.hdfs优缺点 优点: a.高容错性:数据自动保存多个副本;通过增加副本的形式,提高容错性。一个
阅读全文
摘要:1.Hadoop的发展历史起源介绍 a.Hadoop最早起源于Nutch、Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询的功能,但随着抓取网页数量的增加,遇到了严重的可扩展的问题——如何解决数10亿网页的存储和索引问题。 b.2003、2004年谷歌发表的两篇论文为该问题
阅读全文
摘要:maven安装推荐使用3.3.x版本 下载页面 下载完成解压到无中文、空格的目录下,我是解压在c盘 设置环境变量 右键我的电脑-》属性》高级环境设置-》环境变量 系统变量新建MAVEN_HOME 双击环境变量Path 设置bin环境目录 多次点击确定到关闭高级环境设置窗口 测试: Win + r 建
阅读全文
摘要:声明:这是只是作为学习使用,商用使用还是请支持正版 Idea2019下载页面 下载Windows Ultimate 版本(付费版) 双击安装 修改安装目录 ps:为了避免hadoop开发出错安装目录不要有空格和中文 其他选项默认即可 下载破解文件 参考链接 为了避免丢失把下载后的破解文件放在了安装目
阅读全文
摘要:目录 序言 第一章 Windows下基础环境搭建 1.1 jdk安装 1.2 Scala安装 1.3 Maven安装 1.4 Idea安装破解 1.5 VM安装与Linux虚拟机配置 1.6 Linux虚拟机网络配置
阅读全文
摘要:课程里推荐安装jdk1.8,一般的企业普遍也是在使用jdk1.8,所以我这里也是安装的1.8版本 进入oracle官网下载页面 选择合适的版本下载,我这里选的是Windows64位 双击安装包 点击下一步到选择存储路径ps:hadoop开发路径不可以有空格和中文默认安装目录里带有空格所以要换目录 我
阅读全文
摘要:课程使用2.11.8版本 打开scala2.11.8下载页面 拉倒页面最下方,点击Source code(zip)进行下载 解压到指定文件夹这里为了避免出现问题,也是解压到不含空格和中文的目录 我这里是解压到了C盘 解压后进行环境变量配置 右键我的电脑-》属性-》高级环境设置-》环境变量 双击系统变
阅读全文
浙公网安备 33010602011771号