随笔分类 - 大数据
摘要:
上一篇对Hbase底层原理有一定理解后则进入生产开发实战,企业开发大都使用Phoenix来操作Hbase的数据,先部署Phoenix,通过其类似shell命令工具创建表和插入数据及查询数据、表映射,简易JDBC演示示例,实操理解二级索引使用,最后通过整合Hive若干示例实现对Hbase的数据的简易分析能力。
阅读全文
上一篇对Hbase底层原理有一定理解后则进入生产开发实战,企业开发大都使用Phoenix来操作Hbase的数据,先部署Phoenix,通过其类似shell命令工具创建表和插入数据及查询数据、表映射,简易JDBC演示示例,实操理解二级索引使用,最后通过整合Hive若干示例实现对Hbase的数据的简易分析能力。
阅读全文
摘要:
上一篇我们了解HBase基础知识,本篇则针对Hbase底层原理深入了解Master和RegionServer的架构,剖析Hbase的读写流程以及非常重要的写缓存刷写和文件合并机制,掌握预定义分区和系统拆分,最后通过封装Java API编程连接类、DDL操作类、DML操作类及其演示的示例代码结果结尾。
阅读全文
上一篇我们了解HBase基础知识,本篇则针对Hbase底层原理深入了解Master和RegionServer的架构,剖析Hbase的读写流程以及非常重要的写缓存刷写和文件合并机制,掌握预定义分区和系统拆分,最后通过封装Java API编程连接类、DDL操作类、DML操作类及其演示的示例代码结果结尾。
阅读全文
摘要:
要想入门大数据理论和原理必先研究HBase,体会其设计精髓,本篇先介绍其基础架构和应用场景、逻辑结构和物理存储结构进一步理解其数据模型,通过详细完整步骤一步步的安装最新版本2.5高可用的Hbase集群以加深理解其整体架构,最后通过实操Hbase Shell基础命令和DDL、DMl等常用命令。
阅读全文
要想入门大数据理论和原理必先研究HBase,体会其设计精髓,本篇先介绍其基础架构和应用场景、逻辑结构和物理存储结构进一步理解其数据模型,通过详细完整步骤一步步的安装最新版本2.5高可用的Hbase集群以加深理解其整体架构,最后通过实操Hbase Shell基础命令和DDL、DMl等常用命令。
阅读全文
摘要:
Hive与Spark之间整合有3种模式,本篇从Hive on Spark和Spark on Hive的使用出发,hive支持mr、tez和spark三种底层计算引擎,通过部署Hive on Spark环境实现Hive用到Spark的体验,Spark on Hive的使用则比较简单直接通过SQL操作Hive,最后罗列常见的一些大数据性能调优方法。
阅读全文
Hive与Spark之间整合有3种模式,本篇从Hive on Spark和Spark on Hive的使用出发,hive支持mr、tez和spark三种底层计算引擎,通过部署Hive on Spark环境实现Hive用到Spark的体验,Spark on Hive的使用则比较简单直接通过SQL操作Hive,最后罗列常见的一些大数据性能调优方法。
阅读全文
摘要:
本篇先了解Spark和Hadoop的关系与区别,进一步了解特性和相关组件架构;通过实战部署了Spark最新版本3.3.0的Local、Standalone+历史服务+HA、Yarn的部署完成操作步骤,并通过不同提交方式的示例和WebUI查看加深多Spark多种作业提交原理的理解,并拉开了使用Spark-Shell方式提交本地、集群、yarn交互式使用之门。
阅读全文
本篇先了解Spark和Hadoop的关系与区别,进一步了解特性和相关组件架构;通过实战部署了Spark最新版本3.3.0的Local、Standalone+历史服务+HA、Yarn的部署完成操作步骤,并通过不同提交方式的示例和WebUI查看加深多Spark多种作业提交原理的理解,并拉开了使用Spark-Shell方式提交本地、集群、yarn交互式使用之门。
阅读全文
摘要:
Hive是一个建立在Hadoop HDFS架构至上的数仓工具,管理元数据但本身不存储数据,本篇了解hive优缺点,进一步理解其组成部分和数据组织形式和Driver,最后通过部署最新版本3.1.3版本完成内嵌模式、本地metastore、远程hiveserver2和metastore打开进入hive使用的大门
阅读全文
Hive是一个建立在Hadoop HDFS架构至上的数仓工具,管理元数据但本身不存储数据,本篇了解hive优缺点,进一步理解其组成部分和数据组织形式和Driver,最后通过部署最新版本3.1.3版本完成内嵌模式、本地metastore、远程hiveserver2和metastore打开进入hive使用的大门
阅读全文
摘要:
有Sqoop和DataX之类数据处理为何还要用Apache SeaTunnel,这就要得益于Apache SeaTunnel依赖Flink和Spark天然分布式处理数据的特性,前两者是单机同步数据不适于海量数据同步,以低代码方式用配置文件就可以启动Flink数据处理应用,本篇从基本概念和原理入手,并通过部署SeaTunnel演示了多个基于Flink的Source和Sink配置,基本掌握如何编写配置使用。
阅读全文
有Sqoop和DataX之类数据处理为何还要用Apache SeaTunnel,这就要得益于Apache SeaTunnel依赖Flink和Spark天然分布式处理数据的特性,前两者是单机同步数据不适于海量数据同步,以低代码方式用配置文件就可以启动Flink数据处理应用,本篇从基本概念和原理入手,并通过部署SeaTunnel演示了多个基于Flink的Source和Sink配置,基本掌握如何编写配置使用。
阅读全文
摘要:
全篇通过依赖Hadoopz最新版本3.3.4部署Flink最新版本1.15.1的实战操作,针对Standalone 单机部署、Standalone 集群部署、Standalone 单机部署 HA部署的操作步骤结合演示示例深入理解Flink的丰富安装模式,全篇重点在针对生产Flink On Yarn模式,以Flink On Yarn从部署原理、流程和示例完整操作流程说明的角度分别演示会话(Session)模式、单作业(Per-Job)模式、应用(Application)模式形成深刻的理解。
阅读全文
全篇通过依赖Hadoopz最新版本3.3.4部署Flink最新版本1.15.1的实战操作,针对Standalone 单机部署、Standalone 集群部署、Standalone 单机部署 HA部署的操作步骤结合演示示例深入理解Flink的丰富安装模式,全篇重点在针对生产Flink On Yarn模式,以Flink On Yarn从部署原理、流程和示例完整操作流程说明的角度分别演示会话(Session)模式、单作业(Per-Job)模式、应用(Application)模式形成深刻的理解。
阅读全文
摘要:
基于JDK11的Flink最新版本v15.1,以官网最新文档入手,从为何选择使用Flink为引导线,介绍实时数仓的演变历程,对比Flink和Spark的差异和竞争力。进一步剖析其系统架构、通过无界和有界数据理解,加深对流式分析的认识,了解三大运行模式适用场景,最后理解作业提交完整流程,为下一篇Flink部署和任务提交奠定基础
阅读全文
基于JDK11的Flink最新版本v15.1,以官网最新文档入手,从为何选择使用Flink为引导线,介绍实时数仓的演变历程,对比Flink和Spark的差异和竞争力。进一步剖析其系统架构、通过无界和有界数据理解,加深对流式分析的认识,了解三大运行模式适用场景,最后理解作业提交完整流程,为下一篇Flink部署和任务提交奠定基础
阅读全文
摘要:
本篇从Hadoop发行版本历史开始,延伸至其生态说明,了解总体组成部分和架构,通过实战部署最新版本3.3.4实现3个节点集群,并配置NameNode和ResourceManager的HA,最后测试完成HDFS文件读写和Yarn任务资源调度。...
阅读全文
本篇从Hadoop发行版本历史开始,延伸至其生态说明,了解总体组成部分和架构,通过实战部署最新版本3.3.4实现3个节点集群,并配置NameNode和ResourceManager的HA,最后测试完成HDFS文件读写和Yarn任务资源调度。...
阅读全文
摘要:
本篇为生产使用的MinIO配置Nginx代理,实战操作如何创建MinIO的用户和安全认证,通过配置MinIO的server信息开始,实操MC客户端常见的命令操作实现浏览桶、创建删除桶、文件上传下载等,最后通过编程SDK使用需求出发,通过Java客户端的实现文件上传下载的示例,最后以MinIO整合SpringBoot启动器的方式实现MinIO常见API的编程开发
阅读全文
本篇为生产使用的MinIO配置Nginx代理,实战操作如何创建MinIO的用户和安全认证,通过配置MinIO的server信息开始,实操MC客户端常见的命令操作实现浏览桶、创建删除桶、文件上传下载等,最后通过编程SDK使用需求出发,通过Java客户端的实现文件上传下载的示例,最后以MinIO整合SpringBoot启动器的方式实现MinIO常见API的编程开发
阅读全文
摘要:
本篇先了解一个以快著称的云原生对象存储系统,上传下载对象速度只限制于网络带宽,体会强大又极简主义的设计,从MinIO特性和架构设计思想,熟悉其常见应用场景;实战MinIO的快速部署,最后以一个可用生产系统的4个节点每个节点4块磁盘的分布式高可用部署并体验了文件上传和下载的速度。
阅读全文
本篇先了解一个以快著称的云原生对象存储系统,上传下载对象速度只限制于网络带宽,体会强大又极简主义的设计,从MinIO特性和架构设计思想,熟悉其常见应用场景;实战MinIO的快速部署,最后以一个可用生产系统的4个节点每个节点4块磁盘的分布式高可用部署并体验了文件上传和下载的速度。
阅读全文
摘要:
本篇介绍新一代分布式任务工作流调度Apache DolphinScheduler总体架构和设计思想,使用shell工作流演示参数的使用、传递及其优先级,通过数据源管理演示ClickHouse SQL任务类型的工作流使用步骤,最后通过一个邮件告警示例使用DolphinScheduler更加放心...
阅读全文
本篇介绍新一代分布式任务工作流调度Apache DolphinScheduler总体架构和设计思想,使用shell工作流演示参数的使用、传递及其优先级,通过数据源管理演示ClickHouse SQL任务类型的工作流使用步骤,最后通过一个邮件告警示例使用DolphinScheduler更加放心...
阅读全文
摘要:
全新一代分布式工作流任务调度平台Apache DolphinScheduler,其为azkaban的完美替换品,本篇从实战目的出发先了解特性和组成部分,然后以二进制的方式部署2个Master3个Worker1个API和1个Alert的生产环境集群,介绍了其监控中心和安全中心必用功能,最后以一个简单的shell依赖工作流整理流程打开使用的大门。
阅读全文
全新一代分布式工作流任务调度平台Apache DolphinScheduler,其为azkaban的完美替换品,本篇从实战目的出发先了解特性和组成部分,然后以二进制的方式部署2个Master3个Worker1个API和1个Alert的生产环境集群,介绍了其监控中心和安全中心必用功能,最后以一个简单的shell依赖工作流整理流程打开使用的大门。
阅读全文
摘要:
ELK作为老一代日志分析技术栈非常成熟,可以说是最为流行的大数据日志和搜索解决方案,而新一代日志监控选型以MPP架构为主如ClickHouse、StarRocks特别是近年来对ELK地位发起较大的挑战,不乏有许多的大公司如携程,快手已开始把自己的日志解决方案从 ES 迁移到了Clickhouse,本篇将以一个完整实际日志采集的场景进一步打开Clickhouse的技术大门
阅读全文
ELK作为老一代日志分析技术栈非常成熟,可以说是最为流行的大数据日志和搜索解决方案,而新一代日志监控选型以MPP架构为主如ClickHouse、StarRocks特别是近年来对ELK地位发起较大的挑战,不乏有许多的大公司如携程,快手已开始把自己的日志解决方案从 ES 迁移到了Clickhouse,本篇将以一个完整实际日志采集的场景进一步打开Clickhouse的技术大门
阅读全文
摘要:
又多一款数仓选型,虽然ClickHouse从性能上比不上前面的StarRocks,但还是有其使用场景,技多也不压身。本篇了解ClickHouse特性和性能,并完成一个单机和三台集群环境部署并验证可用,为后续实站提供前提条件
阅读全文
又多一款数仓选型,虽然ClickHouse从性能上比不上前面的StarRocks,但还是有其使用场景,技多也不压身。本篇了解ClickHouse特性和性能,并完成一个单机和三台集群环境部署并验证可用,为后续实站提供前提条件
阅读全文
摘要:
本篇重点讲述导入数据到StarRocks几种方式,也通过一个flink-connector-starrocks的简单示例代码了解其导入过程,进而学习数组类型的使用、分布式实现本地Join的使用,最后抛出外部表的使用大门
阅读全文
本篇重点讲述导入数据到StarRocks几种方式,也通过一个flink-connector-starrocks的简单示例代码了解其导入过程,进而学习数组类型的使用、分布式实现本地Join的使用,最后抛出外部表的使用大门
阅读全文
摘要:
在上一篇已部署StarRocks集群环境基础上,本篇以列式存储、稀疏索引开始对StarRocks表设计进一步学习,进而理解排序键、物化视图、位图索引、布隆过滤器索引,全面理解加速数据处理,并通过动手实操示例巩固效果
阅读全文
在上一篇已部署StarRocks集群环境基础上,本篇以列式存储、稀疏索引开始对StarRocks表设计进一步学习,进而理解排序键、物化视图、位图索引、布隆过滤器索引,全面理解加速数据处理,并通过动手实操示例巩固效果
阅读全文
摘要:
没错,国产之强大,越来越多像新时代云原生的Apache Pulsar一样把性能优化极致的正在快速崛起,本篇从StarRocks由来开始,了解其特性和使用场景、架构和原理、组成部分,然后部署了一个FE和3个BE集群,最后通过一个简单建表正式迈入实操
阅读全文
没错,国产之强大,越来越多像新时代云原生的Apache Pulsar一样把性能优化极致的正在快速崛起,本篇从StarRocks由来开始,了解其特性和使用场景、架构和原理、组成部分,然后部署了一个FE和3个BE集群,最后通过一个简单建表正式迈入实操
阅读全文
摘要:
LinkedIn数据驱动主要有两点领悟,其一是强调动态数据有效性要远远大于静态数据,其二是要利用所有数据化信息而不仅仅是交易核心数据。
本篇主要从Kafka诞生背景开始,一步步引出Kafka的Connect组件,而Confluent也免费开源100多种Connector,最后用一个完整的Source和Sink例子带入门如何在分布式模式使用Kafka的Connector
阅读全文
LinkedIn数据驱动主要有两点领悟,其一是强调动态数据有效性要远远大于静态数据,其二是要利用所有数据化信息而不仅仅是交易核心数据。
本篇主要从Kafka诞生背景开始,一步步引出Kafka的Connect组件,而Confluent也免费开源100多种Connector,最后用一个完整的Source和Sink例子带入门如何在分布式模式使用Kafka的Connector
阅读全文

浙公网安备 33010602011771号