yu_lu - 博客园

2024年6月

摘要： HBase HBase shell Region信息观察 create 'namespace:tb','cf' 查看命名空间里的所有表 list_namespace_tables 'n1' 查看region中的某列族数据 hbase hfile -p -f //hbase/data/default/ 阅读全文

posted @ 2024-06-19 09:45 yu_lu 阅读(75) 评论(0) 推荐(0)

hbase的架构和基础命令

摘要：理解HBase HBase概述 Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或半结构化，非结构化的数据（底层是字节数组做存储的） HBase处理数据虽然Hadoop是一个高容错、高延时的分布式文件系统和高并发的批处理系统，但是它不适用于提供实时计算； HB 阅读全文

posted @ 2024-06-14 20:16 yu_lu 阅读(32) 评论(0) 推荐(0)

数据中台建设方法论

摘要：传统数据存储的缺点：生活中的数据来源可以是小程序 APP 网站日志物联网loT 隐藏行为 ...... 1、存储方式比较单一。 2、不方便统一管理。 3、不方便同一分析。 4、如果是关系型的数据，表比较单一和少。 5、挖掘数据的价值难度加大，无法充分挖掘数据价值。大致工作流程数据存储 e 阅读全文

posted @ 2024-06-13 20:42 yu_lu 阅读(31) 评论(0) 推荐(0)

hive函数

摘要： sql 练习 count(*)、count(1)、count('字段名')的区别从执行结果来看 count(*)包括了所有的列，相当于行数，在统计结果的时候，不会忽略列值为NULL是最慢的 count(1)包括了忽略所有列，用1代表代码行，在统计结果的时候，不会忽略列值为NULL是最快的 coun 阅读全文

posted @ 2024-06-12 14:15 yu_lu 阅读(44) 评论(0) 推荐(0)

Hive优化

摘要： hive的随机抓取策略理论上来说，Hive中的所有sql都需要进行mapreduce，但是hive的抓取策略帮我们省略掉了这个过程，把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置，select字段名也是需要进行阅读全文

posted @ 2024-06-12 10:21 yu_lu 阅读(27) 评论(0) 推荐(0)

公告