wang_jun - 博客园

2024年11月24日

摘要：什么是hbase? HBase是一个高可靠，高性能，面对列可伸缩的分布式文件系统，可以存储海量的结构化，半结构化，非结构化数据（底层是按照字节数组存储的）（HBase利用HDFS作为文件存储系统，利用zookeeper作为元数据的元数据存储） HBase 与 HDFS 比较 HBase内部使用哈希阅读全文

posted @ 2024-11-24 20:19 wang_jun 阅读(277) 评论(0) 推荐(0)

2024年11月22日

hbase进阶

摘要： hbase参数优化 hbase.hregion.memstore.flush.size 默认值是128MB,当memstore的数据达到128MB时，写入磁盘，以storefile文件存在，最后以Hfile形式存储到HDFS上 hbase.regionserver.global.memstore.s 阅读全文

posted @ 2024-11-22 21:59 wang_jun 阅读(323) 评论(0) 推荐(0)

2024年11月20日

hbase 过滤器

摘要： * 三大类过滤器： * 1. 比较过滤器 * 2. 专用过滤器 * 3. 包装过滤器比较运算符 * LESS < * LESS_OR_EQUAL <= * EQUAL = * NOT_EQUAL <> * GREATER_OR_EQUAL >= * GREATER > * NO_OP 排除所有比阅读全文

posted @ 2024-11-20 15:43 wang_jun 阅读(303) 评论(0) 推荐(0)

2024年11月19日

HBaseAPI

摘要： jdbc连接数据库6步 1.注册驱动 2.创建数据库连接对象、 3.创建数据库操作对象 4.对数据库进行操作 5.解决查询结果 6.关闭数据库资源 Hbase api基础我们要做的任务 1、如何创建一张表 2、如何删除一张表 3、如何向hbase表中插入一列数据 4、如何向hbase表中插入一批数据阅读全文

posted @ 2024-11-19 21:00 wang_jun 阅读(315) 评论(0) 推荐(0)

2024年11月17日

HBase

摘要：什么是hbase? HBase是一个高可靠，高性能，面对列可伸缩的分布式文件系统，可以存储海量的结构化，半结构化，非结构化数据（底层是按照字节数组存储的）（HBase利用HDFS作为文件存储系统，利用zookeeper作为元数据的元数据存储） HBase 与 HDFS 比较 HBase内部使用哈希阅读全文

posted @ 2024-11-17 18:56 wang_jun 阅读(277) 评论(0) 推荐(0)

2024年11月14日

数据仓库

摘要：什么是数据仓库？数据仓库是面向主题的，集成的，随时间变化的，非易失的集合。数据仓库的模型星型模型事实表连接着多个维度表，是单维度的每个维度上不存在再连接维度表了特点：不存在渐变维度，非正规化，有冗余数据，查询效率比较高数据仓库的模型-- 雪花模型多个维度表连接着事实表且每个维度表上会阅读全文

posted @ 2024-11-14 20:17 wang_jun 阅读(302) 评论(0) 推荐(0)

2024年11月13日

hive--学习

摘要：一：什么是hive （面试题） 1.hive是数据仓库建模的工具之一 2.我们可以向hive传入一条交互式的sql,在海量数据中查询分析得到结果的平台 hive 的特点 1.可扩展性 hive可以自由的扩展集群的规模，一般情况下不需要重启服务 2.延展性 hive支持自定义函数，用户可以根据自己的需阅读全文

posted @ 2024-11-13 23:20 wang_jun 阅读(287) 评论(0) 推荐(0)

2024年11月8日

hive的搭建

摘要： apache Hive官网下载 apache-hive-3.1.2-bin.tar.gz 华为镜像站下载MySQL mysql-connector-java-8.0.29.jar /usr/local/soft/jars 上传到该目录下 1、解压该目录下解压到上一个目录下 tar -zxvf a 阅读全文

posted @ 2024-11-08 23:48 wang_jun 阅读(321) 评论(0) 推荐(0)

2024年11月4日

mapreduce流程

摘要： * 客户端通过hadoop fs -put/bigdata命令将元数据切分成块存放在HDFS上，且每一个块我们给大小128M * 之后我们将每一个block块通过逻辑切片，切成一个个split()切片，一般，我们的默认切片大小跟block块保持一致，如果我们读到最后一个block块，与前一个bl 阅读全文

posted @ 2024-11-04 21:19 wang_jun 阅读(298) 评论(0) 推荐(0)

hadoop

摘要： google三篇论文 GFS MapReduce数据计算 BigTable 什么是hadoop? ：Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。 **Hadoop Common**：基础型功能 **Hadoop Distributed File System (HDFS™)**：一阅读全文

posted @ 2024-11-04 00:00 wang_jun 阅读(327) 评论(0) 推荐(0)

wangxiaojian-lina

公告