itxiaoshen - 博客园

2022年10月12日

企业大数据发展面临问题之存算分离技术思考

摘要：

存算分离是下一代企业大数据必然趋势，本篇先简述存算分离背景以及为何要进行存算分离，当前存算分离主要优势和实际应用场景。并归纳分析若干如华为Ocean系列、JuiceFs、HashData等市面上存算分离产品和解决方案。阅读全文

posted @ 2022-10-12 23:05 itxiaoshen 阅读(1969) 评论(0) 推荐(5)

2022年10月11日

大数据技术之HBase原理与实战归纳分享-下

摘要：

上一篇对Hbase底层原理有一定理解后则进入生产开发实战，企业开发大都使用Phoenix来操作Hbase的数据，先部署Phoenix，通过其类似shell命令工具创建表和插入数据及查询数据、表映射，简易JDBC演示示例，实操理解二级索引使用，最后通过整合Hive若干示例实现对Hbase的数据的简易分析能力。阅读全文

posted @ 2022-10-11 22:22 itxiaoshen 阅读(251) 评论(0) 推荐(0)

2022年10月10日

大数据技术之HBase原理与实战归纳分享-中

摘要：

上一篇我们了解HBase基础知识，本篇则针对Hbase底层原理深入了解Master和RegionServer的架构，剖析Hbase的读写流程以及非常重要的写缓存刷写和文件合并机制，掌握预定义分区和系统拆分，最后通过封装Java API编程连接类、DDL操作类、DML操作类及其演示的示例代码结果结尾。阅读全文

posted @ 2022-10-10 23:08 itxiaoshen 阅读(300) 评论(0) 推荐(0)

2022年10月9日

大数据技术之HBase原理与实战归纳分享-上

摘要：

要想入门大数据理论和原理必先研究HBase，体会其设计精髓，本篇先介绍其基础架构和应用场景、逻辑结构和物理存储结构进一步理解其数据模型，通过详细完整步骤一步步的安装最新版本2.5高可用的Hbase集群以加深理解其整体架构，最后通过实操Hbase Shell基础命令和DDL、DMl等常用命令。阅读全文

posted @ 2022-10-09 18:52 itxiaoshen 阅读(500) 评论(0) 推荐(0)

2022年10月4日

云原生强大且灵活的持续集成CI开源框架Tekton实战-上

摘要：

Tekton以yaml文件编排应用构建及部署流程，是一个纯云原生的标准化CICD流水线构建、测试和部署流程的工具，本篇先介绍其使用好处、主要组件、并一步步部署和简单演示任务和管道的简易使用。阅读全文

posted @ 2022-10-04 20:28 itxiaoshen 阅读(1349) 评论(0) 推荐(2)

2022年10月3日

云原生下基于K8S声明式GitOps持续部署工具ArgoCD实战-上

摘要：

ArgoCD是Kubernetes的声明式、GitOps连续交付工具，通过Kubernetes控制器来实现。本篇介绍ArgoCD基本功能、组件和工作流程，也介绍通过kubekey部署简单K8S集群和基于K9S简易管理K8S集群，并通过K8S部署ArgoCD，通过二进制部署和配置ArgoCD的命令行工具，最后以一个官方示例演示ArgoCD创建APP的简易示例入门。阅读全文

posted @ 2022-10-03 12:46 itxiaoshen 阅读(1619) 评论(0) 推荐(0)

2022年9月12日

数仓Hive和分布式计算引擎Spark多整合方式实战和调优方向

摘要：

Hive与Spark之间整合有3种模式，本篇从Hive on Spark和Spark on Hive的使用出发，hive支持mr、tez和spark三种底层计算引擎，通过部署Hive on Spark环境实现Hive用到Spark的体验，Spark on Hive的使用则比较简单直接通过SQL操作Hive，最后罗列常见的一些大数据性能调优方法。阅读全文

posted @ 2022-09-12 21:55 itxiaoshen 阅读(1997) 评论(0) 推荐(0)

2022年9月11日

大规模数据分析统一引擎Spark最新版本3.3.0入门实战

摘要：

本篇先了解Spark和Hadoop的关系与区别，进一步了解特性和相关组件架构；通过实战部署了Spark最新版本3.3.0的Local、Standalone+历史服务+HA、Yarn的部署完成操作步骤，并通过不同提交方式的示例和WebUI查看加深多Spark多种作业提交原理的理解，并拉开了使用Spark-Shell方式提交本地、集群、yarn交互式使用之门。阅读全文

posted @ 2022-09-11 22:53 itxiaoshen 阅读(1511) 评论(0) 推荐(0)

2022年9月10日

Hive数据仓库工具基本架构和入门部署详解

摘要：

Hive是一个建立在Hadoop HDFS架构至上的数仓工具，管理元数据但本身不存储数据，本篇了解hive优缺点，进一步理解其组成部分和数据组织形式和Driver，最后通过部署最新版本3.1.3版本完成内嵌模式、本地metastore、远程hiveserver2和metastore打开进入hive使用的大门阅读全文

posted @ 2022-09-10 11:22 itxiaoshen 阅读(982) 评论(0) 推荐(0)

2022年9月7日

全能成熟稳定开源分布式存储Ceph破冰之旅-上

摘要：

Ceph实现了分布式统一的存储，既支持对象存储、块设备存储还支持文件系统，不失为目前最成熟稳定的存储解决方案，本篇先了解传统存储问题和Ceph的优势，介绍总体架构和组成部分，说明官网文档部署和部署版本建议，了解几种部署方式，最后通过Cephadm快速部署一个简单暂无存储节点的集群，后续可以在此基础上进行高可用节点的和存储节点的扩缩容阅读全文

posted @ 2022-09-07 22:44 itxiaoshen 阅读(1452) 评论(0) 推荐(0)

itxiaoshen博客

虽然不能成为技术大神，但也要与时俱进保持对于IT新技术的学习追求，一点点积累和自我总结，即使再小的帆也能远航。www.itxiaoshen.com

公告