摘要: HBase HBase shell Region信息观察 create 'namespace:tb','cf' 查看命名空间里的所有表 list_namespace_tables 'n1' 查看region中的某列族数据 hbase hfile -p -f //hbase/data/default/ 阅读全文
posted @ 2024-06-19 09:45 yu_lu 阅读(74) 评论(0) 推荐(0)
摘要: 理解HBase HBase概述 Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或半结构化,非结构化的数据(底层是字节数组做存储的) HBase处理数据 虽然Hadoop是一个高容错、高延时的分布式文件系统和高并发的批处理系统,但是它不适用于提供实时计算; HB 阅读全文
posted @ 2024-06-14 20:16 yu_lu 阅读(32) 评论(0) 推荐(0)
摘要: 传统数据存储的缺点: 生活中的数据来源可以是 小程序 APP 网站 日志 物联网loT 隐藏行为 ...... 1、存储方式比较单一。 2、不方便统一管理。 3、不方便同一分析。 4、如果是关系型的数据,表比较单一和少。 5、挖掘数据的价值难度加大,无法充分挖掘数据价值。 大致工作流程 数据存储 e 阅读全文
posted @ 2024-06-13 20:42 yu_lu 阅读(31) 评论(0) 推荐(0)
摘要: sql 练习 count(*)、count(1)、count('字段名')的区别 从执行结果来看 count(*)包括了所有的列,相当于行数,在统计结果的时候,不会忽略列值为NULL是最慢的 count(1)包括了忽略所有列,用1代表代码行,在统计结果的时候,不会忽略列值为NULL是最快的 coun 阅读全文
posted @ 2024-06-12 14:15 yu_lu 阅读(44) 评论(0) 推荐(0)
摘要: hive的随机抓取策略 理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置,select字段名也是需要进行 阅读全文
posted @ 2024-06-12 10:21 yu_lu 阅读(26) 评论(0) 推荐(0)