hive - 随笔分类 - yesyes1

虚拟机突然无法识别到我自己定义的别名node1，但是能够很好地识别到ip地址，为什么会出现这种情况？

摘要：问题描述我每次都是特别认真地将虚拟机各个进程关闭之后才关闭整个虚拟机的，然后不知道它经历了些啥，就直接给我整报错了，最远的一次是FinalShell连接虚拟机主机报错，更改成ip地址即好；最近的一次是在浏览器的hdfs文件存储界面下载文件出错；问题解决选择先查看一下我的hosts文件是不是阅读全文

posted @ 2023-10-17 15:50 yesyes1 阅读(20) 评论(0) 推荐(0)

终于知道如何利用hive的日期转换函数进行日期格式的清洗啦~（之前用的外部数据清洗）

摘要：1、创建合适格式的表result10 create table result10( ip String, time1 String, day String, traffic String, type String, id String) row format delimited fields ter 阅读全文

posted @ 2023-10-15 12:15 yesyes1 阅读(60) 评论(0) 推荐(0)

测试流程总结--数据清洗--受欢迎程度

摘要：1、在外部使用java代码对数据进行清洗，并存储到一个新的txt文件中（需要提前创建好） package org.example; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; i 阅读全文

posted @ 2023-10-13 10:21 yesyes1 阅读(70) 评论(0) 推荐(0)

转换日期数据的格式函数（hive）

摘要：1、转换成标准格式--from_unixtime和unix_timestamp--默认情况下转成yyyy-MM-dd:HH:mm:ss select from_unixtime(unix_timestamp('16/08/2018','dd/MM/yyyy')); 2、原文件字段含有英文--月份英文阅读全文

posted @ 2023-10-12 18:42 yesyes1 阅读(251) 评论(0) 推荐(0)

hive数据库指定删除首行数据

摘要：在我们将csv文件或者txt文件导入到虚拟机本地时，要是不提前将首行的数据指引删除，就会跟随着我们的期望数据显示在hive的数据库里面，上次测试，我就是直接在csv文件里面删除了，但是运行起来确实稍微慢了一点，要是数据条数再多一些，就很难直接在根文件里面进行删除，所以，我找到了一个新的方法，来排阅读全文

posted @ 2023-10-11 18:39 yesyes1 阅读(275) 评论(0) 推荐(0)

Exception in thread "main" java.lang.UnsupportedClassVersionError: org/example/JobMain has been compiled by a more recent version of the Java Runtime (class file version 61.0), 问题的解决（已解决）

摘要：问题描述使用hadoop在虚拟机里面运行打包的程序出错：问题解决我一开始用的是JDK17，然后换成了JDK8，再将程序打包，就解决啦！就是我本机的JDK版本比虚拟机里面的JDK版本高太多了，改成低版本的就ok啦! 阅读全文

posted @ 2023-10-06 16:33 yesyes1 阅读(108) 评论(0) 推荐(0)

案例实操基础版--加载数据+数据清洗(5W条数据)

摘要：我看到了这个跟着实操一下！ 1、加载数据（已经提供了csv文件）建库建表 >这个比较简单，根据文件的字段名创建合适的表； create table msg( msg_time string comment "消息发送时间", sender_name string comment "发送人昵称", 阅读全文

posted @ 2023-09-27 18:06 yesyes1 阅读(46) 评论(0) 推荐(0)

Hive函数高阶——explode函数、UDAF聚合函数

摘要：1、explode函数（输入一行，输出多行）引入lateral view侧视图的概念解决上面问题的限制： 2、UDAF聚合函数增强聚合——grouping sets（相当于union all）增强聚合——cube 增强聚合——rollup（是cube的子集，以左侧维度为主）阅读全文

posted @ 2023-09-27 16:21 yesyes1 阅读(49) 评论(0) 推荐(0)

Hive函数入门——内置函数+用户定义函数

摘要：1、内置函数 1、字符串、时间类型函数之前也是在c语言里面学过，包括concat、split等；时间类型函数：前不久用到的函数： date_add >当前日期的后的第几天的日期； date_sub >当前日期的前的第几天的日期； 2、数学函数、集合函数 round--取整数值（还能指定保留的精阅读全文

posted @ 2023-09-27 15:29 yesyes1 阅读(53) 评论(0) 推荐(0)

Hive内置运算符（就当是缓缓脑袋吧~）

摘要：1、查看所有运算符 show functions; 2、关系运算符--是二元运算符，执行的是比较运算每个关系运算符返回的都是boolean类型； 3、算术运算符--操作数必须为数字类型，分为一元运算符和二元运算符 4、逻辑运算符与之前学过的一样，没难度；阅读全文

posted @ 2023-09-27 14:40 yesyes1 阅读(10) 评论(0) 推荐(0)

Hive学习之CLIS和Commands客户端命令

摘要：1、Batch Mode批处理模式在bin/hive后面使用-e或者-f时，就会进入到批处理模式，运行完成这一句命令，就会直接退出hive命令行例如， bin/hive -e 'show databases' 2、Interactive Shell 交互式模式该模式运行完成后并不退出hive命阅读全文

posted @ 2023-09-27 09:28 yesyes1 阅读(14) 评论(0) 推荐(0)

Hive学习之DQL

摘要：1、update和delete操作 hive表如果不是事务表，就无法进行update操作 stored as orc TBLPROPERTIES('transactional'='true') 将表定义为事务表，之后进行update操作，就不会报错了。 2、select查询数据就是跟mysql十分阅读全文

posted @ 2023-09-27 09:11 yesyes1 阅读(13) 评论(0) 推荐(0)

Hive中创建ETL表进行数据清洗

摘要：问题描述今天看到这么一个问题：看到清洗这两个字，就觉得可高级可高级了！！！所以，就把这个问题的解决方法也看了看，学了学；问题的具体解决方法看到了对ETL的分析（抽取-->过滤-->加载）：首先创建一个在原表的结构基础上，新增我们所需数据的字段的表；然后执行insert+select操作阅读全文

posted @ 2023-09-26 22:37 yesyes1 阅读(35) 评论(0) 推荐(0)

Hive数据仓库的学习——DML学习

摘要：1、load加载 load语法： 2、Hive3.X新特性能够使用load将文件数据存储到分区中，将分区默认作为表格数据的最后一列； 3、insert+select向表插入数据这个语法就是在上次测试的时候遇到过的问题嘞！ insert+values这个语法执行效率就很慢，而换用insert+se 阅读全文

posted @ 2023-09-26 21:05 yesyes1 阅读(12) 评论(0) 推荐(0)

Hive数据仓库的学习——DDL之内部表、外部表、分区表、分桶表

摘要：1、内部表和外部表没有指定建表的类型的话，默认为内部表（Internal Table或者是Managed Table）可以通过这行代码查看表的类型： describe formatted 表名; 内部表和外部表的区别以及适合使用的范围： 2、分区表--避免全表扫描，提高查询效率需要注意的是，在阅读全文

posted @ 2023-09-26 19:47 yesyes1 阅读(44) 评论(0) 推荐(0)

Hive数据仓库的学习--DDL部分

摘要：1、建表语法 2、数据类型转换函数CAST--也就是强制转换例如， CAST('100' AS INT) 3、有关于SerDe的描述序列化和反序列化————用于从文件中读取和数据写入文件的操作（通俗来说，就是分辨分隔符，读取有效数据存储到数据库中）； 4、rowformat 指定具体的分隔符是什阅读全文

posted @ 2023-09-26 15:29 yesyes1 阅读(19) 评论(0) 推荐(0)

使用sqoop export命令将hive数据导入mysql

摘要：描述一下因为我前两天的测试里面，用的是另外一种方法，所以今天想要尝试一下sqoop export的方法，这个方法我之前也试过，但是一直报错，但是！我又来啦！！！相关步骤自己设置一个数量不多的csv文件：然后按照之前的步骤：上传，导入数据库：然后在mysql里面同时创建一个与hive数据库中阅读全文

posted @ 2023-09-24 08:44 yesyes1 阅读(134) 评论(0) 推荐(0)

关于昨天测试结果--可视化的改进(也就是实现查询功能和ECharts的交互功能)

摘要：今天我又看了一下自己可视化界面，不得不说，有点子low；并且，我除了实现了数据的可视化，并没有那种选择哪天的日期，然后就显示哪天的信息，可视化并不明确，很low！！！今天特意来改进一下：文本框输入日期数据：界面跳转：也就是通过将文本框数据和后端相连接实现，sql语句： select * f 阅读全文

posted @ 2023-09-23 11:24 yesyes1 阅读(14) 评论(0) 推荐(0)

考试程序语句总结

摘要：1、导csv文件到hive数据库建表便于接收数据： create table test1(day_id varchar(30),sale_nbr varchar(30),buy_nbr varchar(30),cnt varchar(30),round varchar(30)) row forma 阅读全文

posted @ 2023-09-22 18:00 yesyes1 阅读(19) 评论(0) 推荐(0)

将hive数据库中的数据导入到mysql数据库中时需要注意到的问题

摘要：在hive中使用jdbc将hive与mysql连接起来时一定要注意到每个数据库不同的字段个数，在打算直接复制时，不能只是修改表的名称和字段名称，还要记得修改几个？那里，个数要与字段名称保持一致！！！不然就会报错（比如我）；阅读全文

posted @ 2023-09-22 11:49 yesyes1 阅读(49) 评论(0) 推荐(0)

liuzijin

随笔分类 - hive

公告