摘要:
严格来说,StarRocks并没有所谓的“Standalone运行模式”,生产环境下更是不建议进行单实例部署。这里将单机部署整理出来,主要是考虑当用户测试环境受限于机器数量或仅希望验证功能,那么也可以在一台机器上简易部署把StarRocks跑起来。 一、部署节点 主机IP 主机名 内存 192.16 阅读全文
摘要:
现象: 启动FE后,通过命令 ss -nalp | grep 9030 查询不到服务已经启动。 查看fe/log/fe.log日志可以看到报错信息:ERROR (stateChangeExecutor|90) [NodeMgr.checkCurrentNodeExist():680] current 阅读全文
摘要:
1.为什么要用Flume? (1).高效的数据收集与聚合:Flume能从多种来源(如Web服务器、消息队列、文件系统等)高效地收集数据,并将其发送到指定的目标位置。它还能将来自不同源的数据进行聚合,便于后续的分析和处理。(2).灵活的数据转换与传输:Flume支持对收集到的数据进行转换 阅读全文
摘要:
多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。 今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解决这段代码的倾斜。 当执行过程中任务卡在 99% 阅读全文
摘要:
1、StarRocks 的 MV(物化视图)机制是如何工作的? StarRocks 的物化视图(MV)机制通过预先计算和存储数据的聚合结果或者转换结果来提高查询性能。其工作原理如下: (1)、数据预处理: 在创建物化视图时,StarRocks 会对指定的表进行数据聚合或转换操作,然后将结果存储在物化 阅读全文
摘要:
执行命令: ifup lo 时,Centos 无法获取IP报错:No suitable device found for this connection device lo not available because device is strictly unmanaged 1. 错误现象No su 阅读全文
摘要:
一、调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 二、数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如, 阅读全文
摘要:
在初期阶段,项目团队只使用了少量HBase节点以满足基本的读写需求。随着数据量的增加和业务需求的复杂化,HBase集群扩展到了几十个节点。此时,性能问题逐渐暴露出来:如读写延迟增大、热点问题严重等。为了应对这些挑战,项目团队逐步引入了一系列优化措施,并通过持续的调优,显著提升了HBase集群的性能。 阅读全文
摘要:
1.1、介绍Hadoop 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 狭义上说,Hadoop指Apache这款开源框架,它的核心组件有: (1)、HDFS(分布式文件系统):解决海量数据存储; (2)、YARN(作业调度和集群资源管理的框架):解决资源任务调度; (3) 阅读全文
摘要:
在搭好HA集群之后,想测试一下集群的高可用性,于是先把active的namenode给停掉: hadoop-daemon.sh stop namenode 或者直接kill掉该节点namenode的对应进程也可。 但是通过hdfs haadmin -getServiceState master1 查 阅读全文