随笔分类 - Hadoop
你公司到底需不需要引入实时计算引擎?(转载)
摘要:大数据发展至今,数据呈指数倍的增长,对实效性的要求也越来越高,于是像上面这种需求也变得越来越多了。 那这些场景对应着什么业务需求呢?我们来总结下,大概如下: 初看这些需求,是不是感觉很难? 那么我们接下来来分析一下该怎么去实现? 从这些需求来看,最根本的业务都是需要实时查看数据信息,那么首先我们得想
阅读全文
基于Kafka的实时计算引擎如何选择?(转载)
摘要:1.前言 目前实时计算的业务场景越来越多,实时计算引擎技术及生态也越来越成熟。以Flink和Spark为首的实时计算引擎,成为实时计算场景的重点考虑对象。那么,今天就来聊一聊基于Kafka的实时计算引擎如何选择?Flink or Spark? 2.为何需要实时计算? 根据IBM的统计报告显示,过去两
阅读全文
HBase 基本入门篇
摘要:无论是 NoSQL,还是大数据领域,HBase 都是非常”炙热”的一门数据库。本文将对 HBase 做一些基础性的介绍,旨在入门。 一、简介 HBase 是一个开源的、面向列的非关系型分布式数据库,目前是Hadoop体系中非常关键的一部分。在最初,HBase是基于谷歌的 BigTable 原型实现的
阅读全文
Impala内存优化(转载)
摘要:一. 引言 Hadoop生态中的NoSQL数据分析三剑客Hive、HBase、Impala分别在海量批处理分析、大数据列式存储、实时交互式分析各有所长。尤其是Impala,自从加入Hadoop大家庭以来,凭借其各个特点鲜明的优点博取了广大大数据分析人员的欢心。 Impala通过主节点生成执行计划树并
阅读全文
Impala 介绍(转载)
摘要:一、简介 1、概述 Impala是Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。 •基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点 impala使用hive的元数据, 完全在内存中计算 •是CDH平台首选的PB级大数据实时查询
阅读全文
Centos 下 Apache 原生 Hbase + Phoenix 集群安装(转载)
摘要:前置条件 各软件版本:hadoop-2.7.7、hbase-2.1.5 、jdk1.8.0_211、zookeeper-3.4.10、apache-phoenix-5.0.0-HBase-2.0-bin.tar.gz 至少 3 台 Centos 服务器,主机名分别为:hadoop0001、hadoo
阅读全文
Apache Phoenix系列 | 从入门到精通(转载)
摘要:原文地址:https://cloud.tencent.com/developer/article/1498057 来源: 云栖社区 作者: 瑾谦 By 大数据技术与架构 文章简介:Phoenix是一个开源的HBASE SQL层。它不仅可以使用标准的JDBC API替代HBASE client API
阅读全文
Phoenix 简单介绍
摘要:转载自:https://blog.csdn.net/carolzhang8406/article/details/79455684 1. Phoenix定义 Phoenix最早是saleforce的一个开源项目,后来成为Apache基金的顶级项目。 Phoenix是构建在HBase上的一个SQL层,
阅读全文
Hive 调优
摘要:今天总结本人在使用Hive过程中的一些优化技巧,希望给大家带来帮助。Hive优化最体现程序员的技术能力,面试官在面试时最喜欢问的就是Hive的优化技巧。 技巧1.控制reducer数量 下面的内容是我们每次在hive命令行执行SQL时都会打印出来的内容: In order to change the
阅读全文
Hive 模式设计
摘要:Hive看上去很像关系型数据库。不过,Hive实现和使用的方式和传统的关系型数据库非常不同。Hive是反模式的。 本文将重点介绍Hive中哪些模式是用户应该使用的,儿哪些是应该避免的 一、按天划分的表 这种每天一张表的方式在数据库领域是反模式的一种方式,但因为实际情况下,数据集增长的很快,这种方式应
阅读全文
HiveQL Index 索引
摘要:Hive只有有限的索引功能。Hive中没有普通关系型数据库中键的概念,但是还是可以对一些字段建立索引来加速某些操作。一张表的索引数据存储在另外一张表中。 通过explain命令可以查看某个查询语句是否用到了索引。 一、创建索引 比如,有数据表: create table employees( nam
阅读全文
HiveQL 查询
摘要:一、select ...... from 语句 1、使用正则表达式来指定列 1)从表stocks中选择symbol列和列名以price作为前缀的列 select symbol,`price.*` from stocks; 2、使用列名进行计算 3、算术运算 4、使用函数 1)数学函数 2)聚合函数
阅读全文
Hive 实现update和delete(转载)
摘要:原文链接:https://blog.csdn.net/xueyao0201/article/details/79387647 因为业务要求,需要对Hive表进行delete,在官网查询后,发现update和delete是一类问题。在此总结下如何实现Hive表的delete和update。 首先,先看
阅读全文
HiveQL 数据装在与导出
摘要:一、向管理表中装载数据 1、向表中装载数据load 1)load语法 2)LOCAL 指的是操作系统的文件路径,否则默认为HDFS的文件路径 3)overwrite关键字 如果用户指定了overwrite关键字,那么目标文件夹中之前存在的数据将会被先删除掉。 如果指定,仅仅会把新增的文件增加到目标文
阅读全文
Hive 数据类型与文件格式
摘要:一、基本数据类型 1、基本数据类型 Tinyint 1byte有符号整数 比如20 Smalint 2byte有符号整数 比如20 Int 4byte有符号整数 比如20 Bigint 8byte有符号整数 比如20 Boolean 布尔类型,true或者false Float 单精度浮点类型 3.
阅读全文
Sqoop 安装与简单测试
摘要:sqoop基于Hadoop与Hive Hadoop https://www.cnblogs.com/xibuhaohao/p/11772031.html Hive https://www.cnblogs.com/xibuhaohao/p/11772481.html 一、下载sqoop sqoop-1
阅读全文
Hadoop上 Hive 操作
摘要:数据dept表的准备: 数据文件准备: 数据表emp准备: 表emp数据准备: 把数据文件装到表里 查询语句 二、Hive分区hive分区的目的 * hive为了避免全表扫描,从而引进分区技术来将数据进行划分。减少不必要数据的扫描,从而提高效率。 hive分区和mysql分区的区别 * mysql分
阅读全文
Hive-2.3.6 安装
摘要:本安装依赖Haddop2.8安装 https://www.cnblogs.com/xibuhaohao/p/11772031.html 一、下载Hive与MySQL jdbc 连接驱动 apache-hive-2.3.6-bin.tar.gz 官方网站 mysql-connector-java-5.
阅读全文
浙公网安备 33010602011771号