上一页 1 ··· 286 287 288 289 290 291 292 293 294 ··· 385 下一页
摘要: 来源:https://www.cnblogs.com/boccer/p/13734379.html 数据切片问题: 先给不懂得同学解释一下概念: 数据块Block:是HDFS物理数据块,一个大文件丢到HDFS上,会被HDFS切分成指定大小的数据块,即Block 数据切片:数据切片是逻辑概念,只是程序 阅读全文
posted @ 2020-12-23 17:13 秋华 阅读(348) 评论(0) 推荐(0)
摘要: 1.udtf介绍及编写 1.1.介绍 HIVE中udtf可以将一行转成一行多列,也可以将一行转成多行多列,使用频率较高。本篇文章通过实际案例剖析udtf的编写及使用方法和原理。阅读本篇文章前请先阅读UDF编写 测试数据 drop table if exists test; create table 阅读全文
posted @ 2020-12-23 16:53 秋华 阅读(354) 评论(0) 推荐(0)
摘要: 来源:https://www.cnblogs.com/xuziyu/p/10754592.html 1 UDF的定义 UDF(User-Defined Functions)即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求,这时就需要我们自定义函数了 2 UDF的分类 UDF:on 阅读全文
posted @ 2020-12-23 16:35 秋华 阅读(471) 评论(0) 推荐(0)
摘要: 问题分析: hive中分区表其底层就是HDFS中的多个目录下的单个文件,hive导出数据本质是将HDFS中的文件导出 hive中的分区表,因为分区字段(静态分区)不在文件中,所以在sqoop导出的时候,无法将分区字段进行直接导出 思路:在hive中创建一个临时表,将分区表复制过去后分区字段转换为普通 阅读全文
posted @ 2020-12-21 19:28 秋华 阅读(1373) 评论(0) 推荐(0)
摘要: 往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修改很多sql去执行,效率低。因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。 1.创建一个单一字段分区表 1 hive> 2 c 阅读全文
posted @ 2020-12-21 12:37 秋华 阅读(408) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2020-12-19 23:41 秋华 阅读(867) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2020-12-19 23:12 秋华 阅读(353) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2020-12-19 23:04 秋华 阅读(916) 评论(0) 推荐(0)
摘要: Phoenix组件和原生Hbase查询的时间性能对比 原生Hbase查询时间: count 'mysql_data' enter image description here Hbase查询时间为3856秒大约1小时7分钟 Hbase查询优化 count 'mysql_data', INTERVAL 阅读全文
posted @ 2020-12-13 13:06 秋华 阅读(338) 评论(0) 推荐(0)
摘要: 原文:https://blog.csdn.net/rlnlo2pnefx9c/article/details/108288956 4.1 简单粗暴Sqoop 首先来回顾一下Sqoop架构图: 架构图 这里大家记住一个规则:大数据需要切分!如果不切分,这个亿级数据直接导入会崩溃!!! ★ 什么是Sqo 阅读全文
posted @ 2020-12-13 13:03 秋华 阅读(764) 评论(0) 推荐(0)
上一页 1 ··· 286 287 288 289 290 291 292 293 294 ··· 385 下一页