随笔分类 - hive
摘要:问题描述 我每次都是特别认真地将虚拟机各个进程关闭之后才关闭整个虚拟机的,然后不知道它经历了些啥,就直接给我整报错了, 最远的一次是FinalShell连接虚拟机主机报错,更改成ip地址即好; 最近的一次是在浏览器的hdfs文件存储界面下载文件出错; 问题解决 选择先查看一下我的hosts文件是不是
阅读全文
摘要:1、创建合适格式的表result10 create table result10( ip String, time1 String, day String, traffic String, type String, id String) row format delimited fields ter
阅读全文
摘要:1、在外部使用java代码对数据进行清洗,并存储到一个新的txt文件中(需要提前创建好) package org.example; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; i
阅读全文
摘要:1、转换成标准格式--from_unixtime和unix_timestamp--默认情况下转成yyyy-MM-dd:HH:mm:ss select from_unixtime(unix_timestamp('16/08/2018','dd/MM/yyyy')); 2、原文件字段含有英文--月份英文
阅读全文
摘要:在我们将csv文件或者txt文件导入到虚拟机本地时,要是不提前将首行的数据指引删除,就会跟随着我们的期望数据显示在hive的数据库里面, 上次测试,我就是直接在csv文件里面删除了,但是运行起来确实稍微慢了一点,要是数据条数再多一些,就很难直接在根文件里面进行删除,所以,我找到了一个新的方法, 来排
阅读全文
摘要:问题描述 使用hadoop在虚拟机里面运行打包的程序出错: 问题解决 我一开始用的是JDK17,然后换成了JDK8,再将程序打包,就解决啦! 就是我本机的JDK版本比虚拟机里面的JDK版本高太多了,改成低版本的就ok啦!
阅读全文
摘要:我看到了这个 跟着实操一下! 1、加载数据(已经提供了csv文件) 建库建表 >这个比较简单,根据文件的字段名创建合适的表; create table msg( msg_time string comment "消息发送时间", sender_name string comment "发送人昵称",
阅读全文
摘要:1、explode函数(输入一行,输出多行) 引入lateral view侧视图的概念解决上面问题的限制: 2、UDAF聚合函数 增强聚合——grouping sets(相当于union all) 增强聚合——cube 增强聚合——rollup(是cube的子集,以左侧维度为主)
阅读全文
摘要:1、内置函数 1、字符串、时间类型函数 之前也是在c语言里面学过,包括concat、split等; 时间类型函数: 前不久用到的函数: date_add >当前日期的后的第几天的日期; date_sub >当前日期的前的第几天的日期; 2、数学函数、集合函数 round--取整数值(还能指定保留的精
阅读全文
摘要:1、查看所有运算符 show functions; 2、关系运算符--是二元运算符,执行的是比较运算 每个关系运算符返回的都是boolean类型; 3、算术运算符--操作数必须为数字类型,分为一元运算符和二元运算符 4、逻辑运算符 与之前学过的一样,没难度;
阅读全文
摘要:1、Batch Mode批处理模式 在bin/hive后面使用-e或者-f时,就会进入到批处理模式,运行完成这一句命令,就会直接退出hive命令行 例如, bin/hive -e 'show databases' 2、Interactive Shell 交互式模式 该模式运行完成后并不退出hive命
阅读全文
摘要:1、update和delete操作 hive表如果不是事务表,就无法进行update操作 stored as orc TBLPROPERTIES('transactional'='true') 将表定义为事务表,之后进行update操作,就不会报错了。 2、select查询数据 就是跟mysql十分
阅读全文
摘要:问题描述 今天看到这么一个问题: 看到清洗这两个字,就觉得可高级可高级了!!! 所以,就把这个问题的解决方法也看了看,学了学; 问题的具体解决方法 看到了对ETL的分析(抽取-->过滤-->加载): 首先创建一个在原表的结构基础上,新增我们所需数据的字段的表; 然后执行insert+select操作
阅读全文
摘要:1、load加载 load语法: 2、Hive3.X新特性 能够使用load将文件数据存储到分区中,将分区默认作为表格数据的最后一列; 3、insert+select向表插入数据 这个语法就是在上次测试的时候遇到过的问题嘞! insert+values这个语法执行效率就很慢,而换用insert+se
阅读全文
摘要:1、内部表和外部表 没有指定建表的类型的话,默认为内部表(Internal Table或者是Managed Table) 可以通过这行代码查看表的类型: describe formatted 表名; 内部表和外部表的区别以及适合使用的范围: 2、分区表--避免全表扫描,提高查询效率 需要注意的是,在
阅读全文
摘要:1、建表语法 2、数据类型转换函数CAST--也就是强制转换 例如, CAST('100' AS INT) 3、有关于SerDe的描述 序列化和反序列化————用于从文件中读取和数据写入文件的操作(通俗来说,就是分辨分隔符,读取有效数据存储到数据库中); 4、rowformat 指定具体的分隔符是什
阅读全文
摘要:描述一下 因为我前两天的测试里面,用的是另外一种方法,所以今天想要尝试一下sqoop export的方法,这个方法我之前也试过,但是一直报错,但是!我又来啦!!! 相关步骤 自己设置一个数量不多的csv文件: 然后按照之前的步骤:上传,导入数据库: 然后在mysql里面同时创建一个与hive数据库中
阅读全文
摘要:今天我又看了一下自己可视化界面,不得不说,有点子low; 并且,我除了实现了数据的可视化,并没有那种选择哪天的日期,然后就显示哪天的信息,可视化并不明确,很low!!! 今天特意来改进一下: 文本框输入日期数据: 界面跳转: 也就是通过将文本框数据和后端相连接实现,sql语句: select * f
阅读全文
摘要:1、导csv文件到hive数据库 建表便于接收数据: create table test1(day_id varchar(30),sale_nbr varchar(30),buy_nbr varchar(30),cnt varchar(30),round varchar(30)) row forma
阅读全文
摘要:在hive中使用jdbc将hive与mysql连接起来时 一定要注意到每个数据库不同的字段个数,在打算直接复制时,不能只是修改表的名称和字段名称,还要记得修改几个? 那里,个数要与字段名称保持一致!!! 不然就会报错(比如我);
阅读全文

浙公网安备 33010602011771号