随笔分类 -  学习笔记篇

摘要:##一、Flume简介 Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 Flume基于流式架构,容错性强,也很灵活简单。 Flume、Kafka用来实时进行数据收集,Spark、Flink用来实时处理数据,impala用来实时 阅读全文
posted @ 2021-02-14 20:32 落花桂 阅读(117) 评论(0) 推荐(0)
摘要:创建vue-cli4项目,报错 ERROR command failed: yarn https://blog.csdn.net/lyj961222/article/details/105537782 VUE 提示 Failed to resolve Loader: sass-loader http 阅读全文
posted @ 2020-12-28 15:57 落花桂 阅读(100) 评论(0) 推荐(1)
摘要:从远程仓库下载到本地 git clone 仓库地址 本地修改的文件添加上传队列 git add * 上传队列中的文件提交到本地仓库 git commit -m '提交的说明' 将本地仓库的内容推送到远程仓库 git push origin master 拉取远程仓库内容到本地,更新代码 git pu 阅读全文
posted @ 2020-12-27 10:16 落花桂 阅读(60) 评论(0) 推荐(0)
摘要:目录前言一、安装java81、centos7 用yum安装java82、用卸载后重装3、验证二、安装apache 2.41、安装2、开启apache 服务3、web访问三、安装mysql1、下载并安装MySQL官方的 Yum Repository2、MySQL数据库登陆4、远程连接mysql关于ER 阅读全文
posted @ 2020-12-25 15:56 落花桂 阅读(326) 评论(0) 推荐(1)
摘要:##一、HDFS概念 ###1.1 概念 HDFS,它是一个文件系统,全称:Hadoop Distributed File System,用于存储文件通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 ###1.2 组成 1)HDFS集群包括,Na 阅读全文
posted @ 2020-09-20 22:54 落花桂 阅读(365) 评论(0) 推荐(0)
摘要:[Toc] 一、常用基本命令 1、帮助命令 1.1、man 获得帮助信息 1)基本语法: (1)显示说明 NAME 命令的名称和单行描述 SYNOPSIS 怎样使用命令 DESCRIPTION 命令功能的深入讨论 EXAMPLES 怎样使用命令的例子 SEE ALSO 相关主题(通常是手册页) (2 阅读全文
posted @ 2020-04-11 16:13 落花桂 阅读(148) 评论(0) 推荐(1)
摘要:[Toc] 一、初认识Linux Linux内核最初只是由芬兰人林纳斯·托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的。 目前市面上较知名的发行版有:Ubuntu、RedHat、CentOS、Debain、Fedora、SuSE、OpenSUSE。 二、Windows 阅读全文
posted @ 2020-04-07 14:49 落花桂 阅读(205) 评论(0) 推荐(0)
摘要:一、 "日志清洗" 二、 "日志清洗复杂版" 三、 "数据压缩" 四、 "共同好友" 五、 "倒排索引" 六、 "自定义输出路径" 七、 "小文件合并" 八、 "MapperJoin" 九、 "ReducerJoin" 十、 "二次排序与辅助排序" 十一、 "WordCount案例" 阅读全文
posted @ 2020-04-07 14:03 落花桂 阅读(735) 评论(0) 推荐(0)
摘要:[Toc] 数据仓库 一、什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 阅读全文
posted @ 2020-04-06 16:52 落花桂 阅读(250) 评论(0) 推荐(0)
摘要:[Toc] 企业级调优 一、Fetch抓取 Fetch抓取是指, Hive中对某些情况的查询可以不必使用MapReduce计算。 例如:SELECT FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive de 阅读全文
posted @ 2020-04-05 13:53 落花桂 阅读(258) 评论(0) 推荐(0)
摘要:[Toc] 函数 一、系统自带函数 1)查看系统自带的函数 2)显示自带的函数的用法 3)详细显示自带的函数的用法 二、自定义函数 1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。 2)当Hive提供的内置函数无法满足你的业务处理需要时,此时 阅读全文
posted @ 2020-04-03 13:21 落花桂 阅读(275) 评论(0) 推荐(0)
摘要:[Toc] DML数据操作 一、数据导入 1、向表中装载数据(Load) 1)语法 2)实操案例 (1)创建一张表 (2)加载本地文件到hive (3)加载HDFS文件到hive中 (4)加载数据覆盖表中已有的数据 2、通过查询语句向表中插入数据(Insert) 1)创建一张分区表 2)基本插入数据 阅读全文
posted @ 2020-04-01 12:03 落花桂 阅读(237) 评论(0) 推荐(0)
摘要:[Toc] 数据定义 一、创建数据库 1、创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/ .db。 2、避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法) 3、创建一个数据库,指定数据库在HDFS上存放的位置 二、修改数据库 阅读全文
posted @ 2020-03-06 20:11 落花桂 阅读(357) 评论(0) 推荐(0)
摘要:[Toc] Hive数据类型 一、基本数据类型 Hive数据类型 | Java数据类型 | 长度 | 例子 | | | TINYINT | byte | 1byte有符号整数 | 20 SMALINT | short | 2byte有符号整数 | 20 INT | int | 4byte有符号整数 阅读全文
posted @ 2020-03-03 19:43 落花桂 阅读(176) 评论(0) 推荐(0)
摘要:[Toc] 一、基本介绍 介绍 QR Code码是由日本于1994年9月研制的一 种矩阵二维码符号,它具有一维条码及其它二 维条码所具有的信息容量大、可靠性高、可表示汉字及图象多种文字信息、保密防伪性强等优点。 qrcode模块是Github_上的一 个开源项目,提供了生成二维码的接口。qrcode 阅读全文
posted @ 2020-02-10 14:39 落花桂 阅读(12197) 评论(3) 推荐(3)
摘要:##一、zookeeper介绍 ####1、概述 Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 ####2、特点 1)Zoo 阅读全文
posted @ 2020-02-08 21:54 落花桂 阅读(260) 评论(0) 推荐(0)
摘要:[Toc] 一、Docker是什么 概述: Docker是Linux容器封装,提供一些简单易用的容器使用接口。 Docker将应用程序与该程序的依赖,打包在一个文件里面,运行这个文件,就会生成一个虚拟容器。程序在虚拟容器中运行的时候,就好像运行在真的物理机上一样。 Docker提供版本管理、复制、分 阅读全文
posted @ 2020-02-03 21:42 落花桂 阅读(423) 评论(0) 推荐(1)
摘要:[Toc] Hive常见属性配置 1、Hive数据仓库位置配置 1)Default数据仓库的最原始位置是在hdfs上的:/user/hive/warehouse路径下 2)在仓库目录下,没有对默认的数据库default创建文件夹。如果某张表属于default数据库,直接在数据仓库目录下创建一个文件夹 阅读全文
posted @ 2020-01-25 19:00 落花桂 阅读(219) 评论(0) 推荐(0)
摘要:[Toc] 一、Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL/SQL转化成MapReduce程序。 1)Hiv 阅读全文
posted @ 2020-01-24 15:17 落花桂 阅读(297) 评论(0) 推荐(0)
摘要:[TOC] 介绍 百度百科对git的定义如下:git是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。 1.什么是版本控制呢? 版本控制是指对软件开发过程中各种程序代码、配置文件及说明文档等文件变更的管理,是软件配置管理的核心思想之一。 可以记录文件的所有历史变化、随 阅读全文
posted @ 2020-01-24 13:02 落花桂 阅读(161) 评论(0) 推荐(1)

返回顶端
Live2D