大数据 - 随笔分类(第2页) - itxiaoshen

摘要：

上一篇对Hbase底层原理有一定理解后则进入生产开发实战，企业开发大都使用Phoenix来操作Hbase的数据，先部署Phoenix，通过其类似shell命令工具创建表和插入数据及查询数据、表映射，简易JDBC演示示例，实操理解二级索引使用，最后通过整合Hive若干示例实现对Hbase的数据的简易分析能力。阅读全文

posted @ 2022-10-11 22:22 itxiaoshen 阅读(250) 评论(0) 推荐(0)

大数据技术之HBase原理与实战归纳分享-中

摘要：

上一篇我们了解HBase基础知识，本篇则针对Hbase底层原理深入了解Master和RegionServer的架构，剖析Hbase的读写流程以及非常重要的写缓存刷写和文件合并机制，掌握预定义分区和系统拆分，最后通过封装Java API编程连接类、DDL操作类、DML操作类及其演示的示例代码结果结尾。阅读全文

posted @ 2022-10-10 23:08 itxiaoshen 阅读(299) 评论(0) 推荐(0)

大数据技术之HBase原理与实战归纳分享-上

摘要：

要想入门大数据理论和原理必先研究HBase，体会其设计精髓，本篇先介绍其基础架构和应用场景、逻辑结构和物理存储结构进一步理解其数据模型，通过详细完整步骤一步步的安装最新版本2.5高可用的Hbase集群以加深理解其整体架构，最后通过实操Hbase Shell基础命令和DDL、DMl等常用命令。阅读全文

posted @ 2022-10-09 18:52 itxiaoshen 阅读(499) 评论(0) 推荐(0)

数仓Hive和分布式计算引擎Spark多整合方式实战和调优方向

摘要：

Hive与Spark之间整合有3种模式，本篇从Hive on Spark和Spark on Hive的使用出发，hive支持mr、tez和spark三种底层计算引擎，通过部署Hive on Spark环境实现Hive用到Spark的体验，Spark on Hive的使用则比较简单直接通过SQL操作Hive，最后罗列常见的一些大数据性能调优方法。阅读全文

posted @ 2022-09-12 21:55 itxiaoshen 阅读(1996) 评论(0) 推荐(0)

大规模数据分析统一引擎Spark最新版本3.3.0入门实战

摘要：

本篇先了解Spark和Hadoop的关系与区别，进一步了解特性和相关组件架构；通过实战部署了Spark最新版本3.3.0的Local、Standalone+历史服务+HA、Yarn的部署完成操作步骤，并通过不同提交方式的示例和WebUI查看加深多Spark多种作业提交原理的理解，并拉开了使用Spark-Shell方式提交本地、集群、yarn交互式使用之门。阅读全文

posted @ 2022-09-11 22:53 itxiaoshen 阅读(1510) 评论(0) 推荐(0)

Hive数据仓库工具基本架构和入门部署详解

摘要：

Hive是一个建立在Hadoop HDFS架构至上的数仓工具，管理元数据但本身不存储数据，本篇了解hive优缺点，进一步理解其组成部分和数据组织形式和Driver，最后通过部署最新版本3.1.3版本完成内嵌模式、本地metastore、远程hiveserver2和metastore打开进入hive使用的大门阅读全文

posted @ 2022-09-10 11:22 itxiaoshen 阅读(980) 评论(0) 推荐(0)

Seatunnel超高性能分布式数据集成平台使用体会

摘要：

有Sqoop和DataX之类数据处理为何还要用Apache SeaTunnel，这就要得益于Apache SeaTunnel依赖Flink和Spark天然分布式处理数据的特性，前两者是单机同步数据不适于海量数据同步，以低代码方式用配置文件就可以启动Flink数据处理应用，本篇从基本概念和原理入手，并通过部署SeaTunnel演示了多个基于Flink的Source和Sink配置，基本掌握如何编写配置使用。阅读全文

posted @ 2022-08-27 00:37 itxiaoshen 阅读(4266) 评论(0) 推荐(0)

新一代分布式实时流处理引擎Flink入门实战操作篇

摘要：

全篇通过依赖Hadoopz最新版本3.3.4部署Flink最新版本1.15.1的实战操作，针对Standalone 单机部署、Standalone 集群部署、Standalone 单机部署 HA部署的操作步骤结合演示示例深入理解Flink的丰富安装模式，全篇重点在针对生产Flink On Yarn模式，以Flink On Yarn从部署原理、流程和示例完整操作流程说明的角度分别演示会话（Session）模式、单作业（Per-Job）模式、应用（Application）模式形成深刻的理解。阅读全文

posted @ 2022-08-21 00:11 itxiaoshen 阅读(1052) 评论(0) 推荐(1)

新一代分布式实时流处理引擎Flink入门实战之先导理论篇-上

摘要：

基于JDK11的Flink最新版本v15.1，以官网最新文档入手，从为何选择使用Flink为引导线，介绍实时数仓的演变历程，对比Flink和Spark的差异和竞争力。进一步剖析其系统架构、通过无界和有界数据理解，加深对流式分析的认识，了解三大运行模式适用场景，最后理解作业提交完整流程，为下一篇Flink部署和任务提交奠定基础阅读全文

posted @ 2022-08-19 23:30 itxiaoshen 阅读(1056) 评论(0) 推荐(2)

一文理解Hadoop分布式存储和计算框架入门基础

摘要：

本篇从Hadoop发行版本历史开始，延伸至其生态说明，了解总体组成部分和架构，通过实战部署最新版本3.3.4实现3个节点集群，并配置NameNode和ResourceManager的HA，最后测试完成HDFS文件读写和Yarn任务资源调度。... 阅读全文

posted @ 2022-08-17 19:27 itxiaoshen 阅读(1176) 评论(0) 推荐(1)

高性能云原生数据对象存储MinIO实战-中

摘要：

本篇为生产使用的MinIO配置Nginx代理，实战操作如何创建MinIO的用户和安全认证，通过配置MinIO的server信息开始，实操MC客户端常见的命令操作实现浏览桶、创建删除桶、文件上传下载等，最后通过编程SDK使用需求出发，通过Java客户端的实现文件上传下载的示例，最后以MinIO整合SpringBoot启动器的方式实现MinIO常见API的编程开发阅读全文

posted @ 2022-08-07 01:00 itxiaoshen 阅读(643) 评论(0) 推荐(0)

高性能云原生数据对象存储MinIO实战-上

摘要：

本篇先了解一个以快著称的云原生对象存储系统，上传下载对象速度只限制于网络带宽，体会强大又极简主义的设计，从MinIO特性和架构设计思想，熟悉其常见应用场景；实战MinIO的快速部署，最后以一个可用生产系统的4个节点每个节点4块磁盘的分布式高可用部署并体验了文件上传和下载的速度。阅读全文

posted @ 2022-08-06 01:28 itxiaoshen 阅读(1267) 评论(0) 推荐(0)

Apache DolphinScheduler新一代分布式工作流任务调度平台实战-中

摘要：

本篇介绍新一代分布式任务工作流调度Apache DolphinScheduler总体架构和设计思想，使用shell工作流演示参数的使用、传递及其优先级，通过数据源管理演示ClickHouse SQL任务类型的工作流使用步骤，最后通过一个邮件告警示例使用DolphinScheduler更加放心... 阅读全文

posted @ 2022-08-04 00:31 itxiaoshen 阅读(1544) 评论(0) 推荐(1)

Apache DolphinScheduler新一代分布式工作流任务调度平台实战-上

摘要：

全新一代分布式工作流任务调度平台Apache DolphinScheduler，其为azkaban的完美替换品，本篇从实战目的出发先了解特性和组成部分，然后以二进制的方式部署2个Master3个Worker1个API和1个Alert的生产环境集群，介绍了其监控中心和安全中心必用功能，最后以一个简单的shell依赖工作流整理流程打开使用的大门。阅读全文

posted @ 2022-07-30 00:21 itxiaoshen 阅读(2204) 评论(0) 推荐(1)

数仓选型必列入考虑的OLAP列式数据库ClickHouse(中)

摘要：

ELK作为老一代日志分析技术栈非常成熟，可以说是最为流行的大数据日志和搜索解决方案，而新一代日志监控选型以MPP架构为主如ClickHouse、StarRocks特别是近年来对ELK地位发起较大的挑战，不乏有许多的大公司如携程，快手已开始把自己的日志解决方案从 ES 迁移到了Clickhouse，本篇将以一个完整实际日志采集的场景进一步打开Clickhouse的技术大门阅读全文

posted @ 2022-05-22 02:31 itxiaoshen 阅读(973) 评论(3) 推荐(3)

数仓选型必列入考虑的OLAP列式数据库ClickHouse（上）

摘要：

又多一款数仓选型，虽然ClickHouse从性能上比不上前面的StarRocks，但还是有其使用场景，技多也不压身。本篇了解ClickHouse特性和性能，并完成一个单机和三台集群环境部署并验证可用，为后续实站提供前提条件阅读全文

posted @ 2022-05-21 01:16 itxiaoshen 阅读(819) 评论(1) 推荐(0)

国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器（下）

摘要：

本篇重点讲述导入数据到StarRocks几种方式，也通过一个flink-connector-starrocks的简单示例代码了解其导入过程，进而学习数组类型的使用、分布式实现本地Join的使用，最后抛出外部表的使用大门阅读全文

posted @ 2022-05-19 22:55 itxiaoshen 阅读(1457) 评论(0) 推荐(0)

国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器（中）

摘要：

在上一篇已部署StarRocks集群环境基础上，本篇以列式存储、稀疏索引开始对StarRocks表设计进一步学习，进而理解排序键、物化视图、位图索引、布隆过滤器索引，全面理解加速数据处理，并通过动手实操示例巩固效果阅读全文

posted @ 2022-05-14 01:17 itxiaoshen 阅读(1861) 评论(0) 推荐(1)

国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器（上）

摘要：

没错，国产之强大，越来越多像新时代云原生的Apache Pulsar一样把性能优化极致的正在快速崛起，本篇从StarRocks由来开始，了解其特性和使用场景、架构和原理、组成部分，然后部署了一个FE和3个BE集群，最后通过一个简单建表正式迈入实操阅读全文

posted @ 2022-05-12 22:47 itxiaoshen 阅读(2453) 评论(1) 推荐(3)

Confluent之Kafka Connector初体验

摘要：

LinkedIn数据驱动主要有两点领悟，其一是强调动态数据有效性要远远大于静态数据，其二是要利用所有数据化信息而不仅仅是交易核心数据。本篇主要从Kafka诞生背景开始，一步步引出Kafka的Connect组件，而Confluent也免费开源100多种Connector，最后用一个完整的Source和Sink例子带入门如何在分布式模式使用Kafka的Connector 阅读全文

posted @ 2022-04-17 13:10 itxiaoshen 阅读(1809) 评论(0) 推荐(0)

itxiaoshen博客

虽然不能成为技术大神，但也要与时俱进保持对于IT新技术的学习追求，一点点积累和自我总结，即使再小的帆也能远航。www.itxiaoshen.com

随笔分类 - 大数据

公告