随笔分类 -  大数据

摘要:大数据技术之HBase原理与实战归纳分享-下上一篇对Hbase底层原理有一定理解后则进入生产开发实战,企业开发大都使用Phoenix来操作Hbase的数据,先部署Phoenix,通过其类似shell命令工具创建表和插入数据及查询数据、表映射,简易JDBC演示示例,实操理解二级索引使用,最后通过整合Hive若干示例实现对Hbase的数据的简易分析能力。 阅读全文
posted @ 2022-10-11 22:22 itxiaoshen 阅读(250) 评论(0) 推荐(0)
摘要:大数据技术之HBase原理与实战归纳分享-中上一篇我们了解HBase基础知识,本篇则针对Hbase底层原理深入了解Master和RegionServer的架构,剖析Hbase的读写流程以及非常重要的写缓存刷写和文件合并机制,掌握预定义分区和系统拆分,最后通过封装Java API编程连接类、DDL操作类、DML操作类及其演示的示例代码结果结尾。 阅读全文
posted @ 2022-10-10 23:08 itxiaoshen 阅读(299) 评论(0) 推荐(0)
摘要:大数据技术之HBase原理与实战归纳分享-上要想入门大数据理论和原理必先研究HBase,体会其设计精髓,本篇先介绍其基础架构和应用场景、逻辑结构和物理存储结构进一步理解其数据模型,通过详细完整步骤一步步的安装最新版本2.5高可用的Hbase集群以加深理解其整体架构,最后通过实操Hbase Shell基础命令和DDL、DMl等常用命令。 阅读全文
posted @ 2022-10-09 18:52 itxiaoshen 阅读(499) 评论(0) 推荐(0)
摘要:数仓Hive和分布式计算引擎Spark多整合方式实战和调优方向Hive与Spark之间整合有3种模式,本篇从Hive on Spark和Spark on Hive的使用出发,hive支持mr、tez和spark三种底层计算引擎,通过部署Hive on Spark环境实现Hive用到Spark的体验,Spark on Hive的使用则比较简单直接通过SQL操作Hive,最后罗列常见的一些大数据性能调优方法。 阅读全文
posted @ 2022-09-12 21:55 itxiaoshen 阅读(1996) 评论(0) 推荐(0)
摘要:大规模数据分析统一引擎Spark最新版本3.3.0入门实战本篇先了解Spark和Hadoop的关系与区别,进一步了解特性和相关组件架构;通过实战部署了Spark最新版本3.3.0的Local、Standalone+历史服务+HA、Yarn的部署完成操作步骤,并通过不同提交方式的示例和WebUI查看加深多Spark多种作业提交原理的理解,并拉开了使用Spark-Shell方式提交本地、集群、yarn交互式使用之门。 阅读全文
posted @ 2022-09-11 22:53 itxiaoshen 阅读(1510) 评论(0) 推荐(0)
摘要:Hive数据仓库工具基本架构和入门部署详解Hive是一个建立在Hadoop HDFS架构至上的数仓工具,管理元数据但本身不存储数据,本篇了解hive优缺点,进一步理解其组成部分和数据组织形式和Driver,最后通过部署最新版本3.1.3版本完成内嵌模式、本地metastore、远程hiveserver2和metastore打开进入hive使用的大门 阅读全文
posted @ 2022-09-10 11:22 itxiaoshen 阅读(980) 评论(0) 推荐(0)
摘要:Seatunnel超高性能分布式数据集成平台使用体会有Sqoop和DataX之类数据处理为何还要用Apache SeaTunnel,这就要得益于Apache SeaTunnel依赖Flink和Spark天然分布式处理数据的特性,前两者是单机同步数据不适于海量数据同步,以低代码方式用配置文件就可以启动Flink数据处理应用,本篇从基本概念和原理入手,并通过部署SeaTunnel演示了多个基于Flink的Source和Sink配置,基本掌握如何编写配置使用。 阅读全文
posted @ 2022-08-27 00:37 itxiaoshen 阅读(4266) 评论(0) 推荐(0)
摘要:新一代分布式实时流处理引擎Flink入门实战操作篇全篇通过依赖Hadoopz最新版本3.3.4部署Flink最新版本1.15.1的实战操作,针对Standalone 单机部署、Standalone 集群部署、Standalone 单机部署 HA部署的操作步骤结合演示示例深入理解Flink的丰富安装模式,全篇重点在针对生产Flink On Yarn模式,以Flink On Yarn从部署原理、流程和示例完整操作流程说明的角度分别演示会话(Session)模式、单作业(Per-Job)模式、应用(Application)模式形成深刻的理解。 阅读全文
posted @ 2022-08-21 00:11 itxiaoshen 阅读(1052) 评论(0) 推荐(1)
摘要:新一代分布式实时流处理引擎Flink入门实战之先导理论篇-上基于JDK11的Flink最新版本v15.1,以官网最新文档入手,从为何选择使用Flink为引导线,介绍实时数仓的演变历程,对比Flink和Spark的差异和竞争力。进一步剖析其系统架构、通过无界和有界数据理解,加深对流式分析的认识,了解三大运行模式适用场景,最后理解作业提交完整流程,为下一篇Flink部署和任务提交奠定基础 阅读全文
posted @ 2022-08-19 23:30 itxiaoshen 阅读(1056) 评论(0) 推荐(2)
摘要:一文理解Hadoop分布式存储和计算框架入门基础本篇从Hadoop发行版本历史开始,延伸至其生态说明,了解总体组成部分和架构,通过实战部署最新版本3.3.4实现3个节点集群,并配置NameNode和ResourceManager的HA,最后测试完成HDFS文件读写和Yarn任务资源调度。... 阅读全文
posted @ 2022-08-17 19:27 itxiaoshen 阅读(1176) 评论(0) 推荐(1)
摘要:高性能云原生数据对象存储MinIO实战-中本篇为生产使用的MinIO配置Nginx代理,实战操作如何创建MinIO的用户和安全认证,通过配置MinIO的server信息开始,实操MC客户端常见的命令操作实现浏览桶、创建删除桶、文件上传下载等,最后通过编程SDK使用需求出发,通过Java客户端的实现文件上传下载的示例,最后以MinIO整合SpringBoot启动器的方式实现MinIO常见API的编程开发 阅读全文
posted @ 2022-08-07 01:00 itxiaoshen 阅读(643) 评论(0) 推荐(0)
摘要:高性能云原生数据对象存储MinIO实战-上本篇先了解一个以快著称的云原生对象存储系统,上传下载对象速度只限制于网络带宽,体会强大又极简主义的设计,从MinIO特性和架构设计思想,熟悉其常见应用场景;实战MinIO的快速部署,最后以一个可用生产系统的4个节点每个节点4块磁盘的分布式高可用部署并体验了文件上传和下载的速度。 阅读全文
posted @ 2022-08-06 01:28 itxiaoshen 阅读(1267) 评论(0) 推荐(0)
摘要:Apache DolphinScheduler新一代分布式工作流任务调度平台实战-中本篇介绍新一代分布式任务工作流调度Apache DolphinScheduler总体架构和设计思想,使用shell工作流演示参数的使用、传递及其优先级,通过数据源管理演示ClickHouse SQL任务类型的工作流使用步骤,最后通过一个邮件告警示例使用DolphinScheduler更加放心... 阅读全文
posted @ 2022-08-04 00:31 itxiaoshen 阅读(1544) 评论(0) 推荐(1)
摘要:Apache DolphinScheduler新一代分布式工作流任务调度平台实战-上全新一代分布式工作流任务调度平台Apache DolphinScheduler,其为azkaban的完美替换品,本篇从实战目的出发先了解特性和组成部分,然后以二进制的方式部署2个Master3个Worker1个API和1个Alert的生产环境集群,介绍了其监控中心和安全中心必用功能,最后以一个简单的shell依赖工作流整理流程打开使用的大门。 阅读全文
posted @ 2022-07-30 00:21 itxiaoshen 阅读(2204) 评论(0) 推荐(1)
摘要:数仓选型必列入考虑的OLAP列式数据库ClickHouse(中)ELK作为老一代日志分析技术栈非常成熟,可以说是最为流行的大数据日志和搜索解决方案,而新一代日志监控选型以MPP架构为主如ClickHouse、StarRocks特别是近年来对ELK地位发起较大的挑战,不乏有许多的大公司如携程,快手已开始把自己的日志解决方案从 ES 迁移到了Clickhouse,本篇将以一个完整实际日志采集的场景进一步打开Clickhouse的技术大门 阅读全文
posted @ 2022-05-22 02:31 itxiaoshen 阅读(973) 评论(3) 推荐(3)
摘要:数仓选型必列入考虑的OLAP列式数据库ClickHouse(上)又多一款数仓选型,虽然ClickHouse从性能上比不上前面的StarRocks,但还是有其使用场景,技多也不压身。本篇了解ClickHouse特性和性能,并完成一个单机和三台集群环境部署并验证可用,为后续实站提供前提条件 阅读全文
posted @ 2022-05-21 01:16 itxiaoshen 阅读(819) 评论(1) 推荐(0)
摘要:国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器(下)本篇重点讲述导入数据到StarRocks几种方式,也通过一个flink-connector-starrocks的简单示例代码了解其导入过程,进而学习数组类型的使用、分布式实现本地Join的使用,最后抛出外部表的使用大门 阅读全文
posted @ 2022-05-19 22:55 itxiaoshen 阅读(1457) 评论(0) 推荐(0)
摘要:国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器(中)在上一篇已部署StarRocks集群环境基础上,本篇以列式存储、稀疏索引开始对StarRocks表设计进一步学习,进而理解排序键、物化视图、位图索引、布隆过滤器索引,全面理解加速数据处理,并通过动手实操示例巩固效果 阅读全文
posted @ 2022-05-14 01:17 itxiaoshen 阅读(1861) 评论(0) 推荐(1)
摘要:国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器(上)没错,国产之强大,越来越多像新时代云原生的Apache Pulsar一样把性能优化极致的正在快速崛起,本篇从StarRocks由来开始,了解其特性和使用场景、架构和原理、组成部分,然后部署了一个FE和3个BE集群,最后通过一个简单建表正式迈入实操 阅读全文
posted @ 2022-05-12 22:47 itxiaoshen 阅读(2453) 评论(1) 推荐(3)
摘要:Confluent之Kafka Connector初体验LinkedIn数据驱动主要有两点领悟,其一是强调动态数据有效性要远远大于静态数据,其二是要利用所有数据化信息而不仅仅是交易核心数据。 本篇主要从Kafka诞生背景开始,一步步引出Kafka的Connect组件,而Confluent也免费开源100多种Connector,最后用一个完整的Source和Sink例子带入门如何在分布式模式使用Kafka的Connector 阅读全文
posted @ 2022-04-17 13:10 itxiaoshen 阅读(1809) 评论(0) 推荐(0)