随笔分类 - hive
摘要:Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hiv...
阅读全文
摘要:翻译Hive官方文档系列,文中括号中包含 注: 字样的,为我自行标注的,水平有限,翻译不是完美无缺的。如有疑问,请参照Hive官方文档对照查看。内容列表 Cloudera制作的Hive介绍视频 安装与配置 系统需求 安装Hive发行版 从Hive源码编译 运行Hive 配置管理概览 运行时配置 Hi...
阅读全文
摘要:在把hdfs上数据迁移到hive中的表时,若出现数据位NULL,是因为没有指定列分隔符。由于hive默认的分隔符是/u0001(Ctrl+A),为了平滑迁移,需要在创建表格时指定数据的分割符号,语法如下:[sql]view plaincopyprint?hive(default)>createext...
阅读全文
摘要:一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修...
阅读全文
摘要:hive内部表、外部表区别自不用说,可实际用的时候还是要小心。1. 内部表:[sql]view plaincopyprint?createtablett(namestring,agestring)location'/input/table_data';此时,会在hdfs上新建一个tt表的数据存放地,...
阅读全文
摘要:1.Hive中的数据库:它是表的一个目录或者命名空间,用来避免表命名冲突,我们通常使用数据库来将生产表组织成逻辑组。基本命令:(1)创建一个数据库(如果不存在该数据库):create databaseif not existstime;(2)查看Hive中所包含的所有数据库:show databas...
阅读全文
摘要:insert 语法格式为:1. 基本的插入语法:insert overwrite table tablename [partition(partcol1=val1,partclo2=val2)] select_statement;insert into table tablename [partit...
阅读全文
摘要:Hive中metastore(元数据存储)的三种方式:内嵌Derby方式Local方式Remote方式[一]、内嵌Derby方式这个是Hive默认的启动模式,一般用于单元测试,这种存储方式有一个缺点:在同一时间只能有一个进程连接使用数据库。hive-site.xml中jdbc URL、驱动、用户名、...
阅读全文
摘要:阅读本文章可以带着下面问题:1.与传统数据库对比,找出他们的区别2.熟练写出增删改查(面试必备)创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, th...
阅读全文
摘要:1.没有接触,不知道这个事物是什么,所以不会产生任何问题。2.接触了,但是不知道他是什么,反正我每天都在用。3.有一定的了解,不够透彻。那么hive,1.我们对它了解多少?2.它到底是什么?3.hive和hadoop是什么关系?扩展:hbase和hive是什么关系?Hive最初是应Facebook每...
阅读全文
摘要:Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hiv...
阅读全文
摘要:Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,...
阅读全文

浙公网安备 33010602011771号