04 2021 档案
摘要:前边已经搭建好了hive,也通过cli登录上了hive,那我们来简单说一下hive Hive概念 Hive是基于Hadoop的一个数据仓库工具 可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储支
阅读全文
摘要:今天我们来聊一下大数据里的一个概念,数据仓库,数据仓库的分层结构,ETL 什么是数据仓库 数据仓库的英文名称为Data Warehouse,可简写为DW或DWH。 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持的目的而
阅读全文
摘要:上一篇文章已经写了配置hive的步骤,也已经通过启动hive cli进去。现在使用代理服务器的方式操作hive hadoop01修改hadoop的core-site.xml文件 cd /bigdata/install/hadoop-3.1.4/etc/hadoop vi core-site.xml
阅读全文
摘要:注意hive就是一个构建数据仓库的工具,只需要在一台服务器上安装就可以了,不需要在多台服务器上安装。 使用hadoop普通用户操作 前提条件 安装好对应版本的hadoop集群,并启动hadoop的HDFS以及YARN服务 hadoop02上安装了MySQL服务,并启动MySQL的服务 下载安装包 进
阅读全文
摘要:安装部分 使用root用户,进入到/bigdata/soft目录,下载的文件会到这个目录,并安装wget工具 cd /bigdata/soft yum -y install wget 使用wget命令下载MySQL的rpm包 wget -i -c http://dev.mysql.com/get/m
阅读全文
摘要:使用shell脚本添加新用户,设置密码,和删除用户 #!/bin/bash read -p "是否要添加用户? 是(0)否(1)" USERADD if [ $USERADD -eq 0 ];then C=1 while [ $C -eq 1 ];do read -p "请输入添加账户账户名:" U
阅读全文
摘要:yarn支持3种调度器,FIFO,容量,公平调度器。 ####FIFO调度算法 只有一个队列,任务执行是按照先进先出的顺序执行,无法支持多用户并发的场景。如下图 ####容器调度算法 yahoo开发的多用户调度器(apache yarn中默认使用) 特征 多队列:每个队列可配置一定的资源量,每个队列
阅读全文
摘要:yarn作为hadoop的资源分配和调度的基础组件,有哪些相关的参数是和这个组件有关呢? ResourceManager相关 yarn.resourcemanager.scheduler.class #配置调度器,apache yarn默认容量调度器,CDH默认公平调度器 yarn.resource
阅读全文
摘要:从标题可以分析出来,我们要使用到shell,还要推送日志信息到hdfs上。 定义出上传的路径和临时路径,并配置好上传的log日志信息。 这里我使用了上一节配置的nginx的error.log #上传log日志文件的存放路径 /bigdata/logs/upload/log/ #上传log日志文件的临
阅读全文
摘要:下载nginx和tomcat的镜像信息 docker pull nginx docker pull tomcat 创建nginx和tomcat需要挂载的目录 mkdir -p /bigdata/install/nginx/www /bigdata/install/nginx/conf/ /bigda
阅读全文
摘要:1.卸载系统自带的docker软件 sudo yum remove docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest \ docker-latest-logrotate \ docker-log
阅读全文
摘要:自定义分区 我们在wordcount小案例中看到结果是1个part-r-000000的文件,那如果我想对统计结果, 按照不同的条件输出到不同的文件(分区),那该如何处理呢? 我们梳理一下这个过程先 一个文本文件,上传到hdfs后以block块存储,split到切片,一个切片对应一个maptask任务
阅读全文
摘要:上次我们做了简单的一个wordcount案例,下边我们在做一个复杂一点的小案例。 例如传输一个对象到wordcount中,输入数据格式如下: 3 12939234290 120.156.21.100 www.baidu.com 116 125 200 id 手机号码 网络ip 网址 下载流量 上传流
阅读全文
摘要:接上回我们谈的hdfs api相关的操作,我们来先跑一个小案例,后边详细说mapreduce和yarn的原理。 打开idea新建一个maven工程,pom文件中添加项目依赖如下: <dependencies> <dependency> <groupId>org.apache.hadoop</grou
阅读全文
摘要:环境变量准备 在~/.bash_profile下配置了环境变量相关的路径信息,比如$HOME/bin路径。就是说会把$HOME/bin目录下的命令添加到环境变量中去。 # .bash_profile # Get the aliases and functions if [ -f ~/.bashrc
阅读全文

浙公网安备 33010602011771号