关注清哥聊技术公众号,了解更多技术文章,作者的原创文章,转载须注明出处。原创文章归作者所有,欢迎转载,但是保留版权。对于转载了博主的原创文章,不标注出处的,作者将依法追究版权,请尊重作者的成果。
摘要: 一、Springboot简介 -> 关注清哥聊技术公众号,了解更多技术文章 springboot 是当下最流行的web 框架,Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置,从而使开发人员不再 阅读全文
posted @ 2023-10-27 17:04 张永清 阅读(1287) 评论(0) 推荐(0)
摘要: 1 、MySQL数据库的性能监控 1.1、如何查看MySQL数据库的连接数 -> 关注清哥聊技术公众号,了解更多技术文章 连接数是指用户已经创建多少个连接,也就是MySQL中通过执行 SHOW PROCESSLIST命令输出结果中运行着的线程个数的详情,如图所示。 SHOW PROCESSLIST默 阅读全文
posted @ 2022-11-11 15:56 张永清 阅读(1193) 评论(0) 推荐(0)
摘要: 1、Prometheus简介 -> 关注清哥聊技术公众号,了解更多技术文章 Prometheus(中文名:普罗米修斯)是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB). Prometheus使用Go语言开发, 是Google BorgMon监控系统的开源版本。 Prometh 阅读全文
posted @ 2022-09-29 10:32 张永清 阅读(6665) 评论(0) 推荐(0)
摘要: 1、Spark Catalyst扩展点 -> 关注清哥聊技术公众号,了解更多技术文章 Spark catalyst的扩展点在SPARK-18127中被引入,Spark用户可以在SQL处理的各个阶段扩展自定义实现,非常强大高效,是SparkSQL的核心组件(查询优化器),它负责将SQL语句转换成物理执 阅读全文
posted @ 2022-06-07 13:55 张永清 阅读(1002) 评论(0) 推荐(0)
摘要: 一、JMeter 如何通过自定义Sample来压测RPC服务 -> 关注清哥聊技术公众号,了解更多技术文章 RPC(Remote Procedure Call)俗称远程过程调用,是常用的一种高效的服务调用方式,也是性能压测时经常遇到的一种服务调用形式。常见的RPC有GRPC、Thrift、Dubbo 阅读全文
posted @ 2022-06-03 15:04 张永清 阅读(2064) 评论(0) 推荐(0)
摘要: 一、CK 分布式表和本地表 -> 关注清哥聊技术公众号,了解更多技术文章 (1)CK是一个纯列式存储的数据库,一个列就是硬盘上的一个或多个文件(多个分区有多个文件),关于列式存储这里就不展开了,总之列存对于分析来讲好处更大,因为每个列单独存储,所以每一列数据可以压缩,不仅节省了硬盘,还可以降低磁盘I 阅读全文
posted @ 2022-03-02 11:22 张永清 阅读(3975) 评论(0) 推荐(0)
摘要: Java编程语言自从诞生起,就成为了一门非常流行的编程语言,覆盖了互联网、安卓应用、后端应用、大数据等很多技术领域,因此Java应用程序的性能分析和调优也是一门非常重要的课题。Java应用程序的性能直接关系到了很多大型电商网站的访问承载能力、大数据的数据处理量等,它的性能分析和调优往往还可以节省很多 阅读全文
posted @ 2022-03-01 16:00 张永清 阅读(1437) 评论(0) 推荐(0)
摘要: 一、JAVA list 转 DataFrame or DataSet -> 关注清哥聊技术公众号,了解更多技术文章 case class CaseJava( var num: String, var id: String, var start_time: String, var istop_time 阅读全文
posted @ 2022-03-01 15:31 张永清 阅读(2565) 评论(0) 推荐(0)
摘要: 1、structured-streaming的state 配置项总结 -> 关注清哥聊技术公众号,了解更多技术文章 Config Name Description Default Value spark.sql.streaming.stateStore.rocksdb.compactOnCommit 阅读全文
posted @ 2021-12-03 14:24 张永清 阅读(3806) 评论(0) 推荐(0)
摘要: 一、Spark-StructuredStreaming checkpointLocation 介绍 Structured Streaming 在 Spark 2.0 版本于 2016 年引入, 是基于 Spark SQL 引擎构建的可扩展且容错的流处理引擎,对比传统的 Spark Streaming 阅读全文
posted @ 2021-11-22 14:33 张永清 阅读(1285) 评论(0) 推荐(0)
摘要: 一、java获取kafka consumer lag、endOffsets、beginningOffsets -> 关注清哥聊技术公众号,了解更多技术文章 maven依赖: <dependency> <groupId>org.apache.kafka</groupId> <artifactId>ka 阅读全文
posted @ 2021-11-17 16:30 张永清 阅读(2384) 评论(0) 推荐(0)
摘要: 一、spark structured-streaming 介绍 -> 关注清哥聊技术公众号,了解更多技术文章 我们都知道spark streaming 在v2.4.5 之后 就进入了维护阶段,不再有新的大版本出现,而且 spark streaming 一直是按照微批来处理streaming 数据的, 阅读全文
posted @ 2021-11-06 15:45 张永清 阅读(2744) 评论(0) 推荐(0)
摘要: 一、当后缀名为zip、gzip,spark可以自动处理和读取 -> 关注清哥聊技术公众号,了解更多技术文章 1、spark非常智能,如果一批压缩的zip和gzip文件,并且里面为一堆text文件时,可以用如下方式读取或者获取读取后的schema spark.read.text("xxxxxxxx/x 阅读全文
posted @ 2021-11-06 12:47 张永清 阅读(5249) 评论(0) 推荐(0)
摘要: 窗口函数与分析函数 -> 关注清哥聊技术公众号,了解更多技术文章应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询 窗口函数FIRST_VALUE:取分组内排序后,截止到当前行,第一个值LAST_VALUE: 取分组内排序后,截止到当前行,最后一个值L 阅读全文
posted @ 2021-08-30 11:07 张永清 阅读(1651) 评论(0) 推荐(0)
摘要: 一、问题现象,使用flink on yarn 模式,写入数据到clickhouse,但是在yarn 集群充足的情况下一直报:Deployment took more than 60 seconds. Please check if the requested resources are availa 阅读全文
posted @ 2021-08-14 13:22 张永清 阅读(2912) 评论(0) 推荐(0)
摘要: 1、启动时报错<Error> Application: DB::Exception: There is no profile 'default' in configuration file. -> 关注清哥聊技术公众号,了解更多技术文章 2021.08.07 15:05:30.719723 [ 1 阅读全文
posted @ 2021-08-07 18:23 张永清 阅读(5621) 评论(0) 推荐(0)
摘要: 1、错误异常信息: -> 关注清哥聊技术公众号,了解更多技术文章 Exception in thread "main" java.lang.IllegalArgumentException: Failed to find metadata store by url: kylin_metadata@h 阅读全文
posted @ 2021-08-07 15:47 张永清 阅读(2953) 评论(0) 推荐(0)
摘要: 一、简介 -> 关注清哥聊技术公众号,了解更多技术文章 InfluxDB(时序数据库)influxdb是一个开源分布式时序、时间和指标数据库,使用 Go 语言编写,无需外部依赖。其设计目标是实现分布式和水平伸缩扩展,是 InfluxData 的核心产品。常用的一种使用场景:监控数据统计,物联网传感器 阅读全文
posted @ 2021-06-17 11:26 张永清 阅读(3455) 评论(0) 推荐(0)
摘要: 开源大数据OLAP组件,可以分为MOLAP和ROLAP两类。ROLAP中又可细分为MPP数据库和SQL引擎两类。对于SQL引擎又可以再细分为基于MPP架构的SQL引擎和基于通用计算框架的SQL引擎: MOLAP一般对数据存储有优化,并且进行部分预计算,因此查询性能最高。但通常对查询灵活性有限制。 - 阅读全文
posted @ 2021-06-11 11:55 张永清 阅读(1065) 评论(0) 推荐(0)
摘要: 一、shuffle调优 -> 关注清哥聊技术公众号,了解更多技术文章 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个S 阅读全文
posted @ 2021-05-18 17:43 张永清 阅读(426) 评论(0) 推荐(0)
摘要: 一、incubator-dolphinscheduler 中如何获取shell类型的节点或者python类型的节点任务的日志 -> 关注清哥聊技术公众号,了解更多技术文章 1、在org.apache.dolphinscheduler.server.worker.task.AbstractComman 阅读全文
posted @ 2021-04-08 17:50 张永清 阅读(1338) 评论(0) 推荐(0)
摘要: 一、prometheus和grafana 简介 -> 关注清哥聊技术公众号,了解更多技术文章 Prometheus 是继 Kubernetes 之后的第二个 CNCF “毕业” 项目,其监控理念传承于由谷歌研发的一款内部监控软件,现主要开发语言为 go,代码目前已经托管在 github 中,遵从 a 阅读全文
posted @ 2021-03-15 18:01 张永清 阅读(1265) 评论(0) 推荐(0)
摘要: 一、概述 谈到并发,不得不谈ReentrantLock;而谈到ReentrantLock,不得不谈AbstractQueuedSynchronizer(AQS)! 类如其名,抽象的队列式的同步器,AQS定义了一套多线程访问共享资源的同步器框架,许多同步类实现都依赖于它,如常用的ReentrantLo 阅读全文
posted @ 2021-03-05 16:53 张永清 阅读(132) 评论(0) 推荐(0)
摘要: 联童科技是一家智能化母婴童产业平台,从事母婴童行业以及互联网技术多年,拥有丰富的母婴门店运营和系统开发经验,在会员经营和商品经营方面,能够围绕会员需求,深入场景,更贴近合作伙伴和消费者,提供最优服务产品,公司致力于以技术来驱动母婴童产业的发展,公司也希望借助于大数据为客户提供更多智能数据分析和决策分 阅读全文
posted @ 2021-02-20 11:16 张永清 阅读(2184) 评论(2) 推荐(0)
摘要: 本文主要阐述软件性能测试中的一些调优思想和技术,节选自作者新书《软件性能测试分析与调优实践之路》部分章节归纳。 在国内互联网公司中,Web中间件用的最多的就是Apache和Nginx这两款了,包括很多大型电商网站淘宝、京东、苏宁易购等,都在使用Nginx或者Apache作为Web中间件。而且很多编程 阅读全文
posted @ 2021-01-10 22:10 张永清 阅读(2449) 评论(0) 推荐(0)
摘要: 本文主要包含如下内容: ClickHouse适用场景 ClickHouse缺点 ClickHouse优点 ClickHouse表引擎-合并树 ClickHouse表引擎-合并树-稀疏索引 ClickHouse表引擎-内存引擎 ClickHouse表引擎-其他引擎 ClickHouse数据同步 Cli 阅读全文
posted @ 2020-12-17 14:10 张永清 阅读(783) 评论(0) 推荐(0)
摘要: 本文主要阐述软件性能测试中的一些调优思想和技术,节选自作者新书《软件性能测试分析与调优实践之路》部分章节归纳。 一、 性能分析与调优思想 -> 关注清哥聊技术公众号,了解更多技术文章 1、性能分析调优模型 性能测试除了为获取性能指标外,更多是为了发现性能瓶颈和性能问题,然后对性能问题和瓶颈进行分析和 阅读全文
posted @ 2020-09-13 11:41 张永清 阅读(4512) 评论(0) 推荐(2)
摘要: 自动化测试如果需要能高效快速的支撑软件项目的测试,项目的快速迭代以及上线,除了以上我们介绍的需要许多的Lib来支持以及需要高效的去编写自动化测试案例外,还需要一个好的自动化测试框架平台来支撑我们的自动化测试案例的执行以及分析,自动化测试平台一般需要解决测试案例执行任务的创建,任务的管理,任务的调度, 阅读全文
posted @ 2020-09-06 16:27 张永清 阅读(1535) 评论(0) 推荐(1)
摘要: 框架 Apache Hadoop:分布式处理架构,结合了 MapReduce(并行处理)、YARN(作业调度)和HDFS(分布式文件系统); Tigon:高吞吐量实时流处理框架。 分布式编程 -> 关注清哥聊技术公众号,了解更多技术文章 AddThis Hydra :最初在AddThis上开发的分布 阅读全文
posted @ 2020-07-16 17:34 张永清 阅读(2051) 评论(0) 推荐(0)
摘要: 一、关于自己 -> 关注清哥聊技术公众号,了解更多技术文章 我是一名80后的IT老兵,从今年出现疫情后,就感觉多少有些力不从心了,因为公司的业务做的不好,公司是做普惠金融的,疫情出现后,催收逾期就非常厉害,导致公司不敢大量放贷,从而就出现了公司收益减少。这时候公司内部很多人就慌了,因为担心公司会裁员 阅读全文
posted @ 2020-07-16 11:12 张永清 阅读(2078) 评论(0) 推荐(2)
摘要: 一、微服务架构设计中经常需要处理的问题罗列: -> 关注清哥聊技术公众号,了解更多技术文章 API Gateway 内部服务间互相调用 服务发现 服务容错、熔断、降级 服务部署 数据处理 二、设计模式 1、微服务-聚合器设计模式: 聚合器调用多个服务实现应用程序所需的功能。它可以是一个简单的 WEB 阅读全文
posted @ 2020-06-24 15:24 张永清 阅读(2410) 评论(0) 推荐(0)
摘要: 一、异常现象截图 -> 关注清哥聊技术公众号,了解更多技术文章 二、解决方式: 1、背景 早期的canal版本(<=1.0.24),在处理表结构的DDL变更时采用了一种简单的策略,在内存里维护了一个当前数据库内表结构的镜像(通过desc table获取)。 这样的内存表结构镜像的维护存在问题,如果当 阅读全文
posted @ 2020-06-24 14:26 张永清 阅读(5916) 评论(0) 推荐(1)
摘要: 一、ODS层 -> 关注清哥聊技术公众号,了解更多技术文章ODS 全称是 Operational Data Store,一般对应的是操作性数据存储,直接面向主题的,也叫数据运营层,通常是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就是通常说的 ETL 之后的数据存入本层。本层的 阅读全文
posted @ 2020-06-04 13:02 张永清 阅读(3484) 评论(0) 推荐(0)
摘要: 一、MPP 架构 -> 关注清哥聊技术公众号,了解更多技术文章 1、MPP架构的基础概念 MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数 阅读全文
posted @ 2020-06-04 12:42 张永清 阅读(7692) 评论(0) 推荐(2)
摘要: 一、问题:Windows 下 flume采集配置TAILDIR的时候,会报如下错误: -> 关注清哥聊技术公众号,了解更多技术文章 agent.sources.seqGenSrc.type = TAILDIR agent.sources.seqGenSrc.positionFile = .\\tai 阅读全文
posted @ 2020-05-06 15:52 张永清 阅读(2327) 评论(0) 推荐(0)
摘要: 一、curator-framework 简介 -> 关注清哥聊技术公众号,了解更多技术文章 curator-framework 是对zookeeper做的分二次分布式封装处理,目前代码也是apache 开源社区维护,如下所示。 github地址:https://github.com/apache/c 阅读全文
posted @ 2020-04-24 16:28 张永清 阅读(4664) 评论(0) 推荐(0)
摘要: 作为分布式系统解决方案的 ZooKeeper,被广泛应用于多个分布式场景。例如:数据发布/订阅,负载均衡,命名服务,集群管理等等。 因此,ZooKeeper 在分布式系统中扮演着重要的角色,今天通过一个简单的例子来看看它的实现原理。 从一个简单的例子开始 在分布式系统中经常会遇到这种情况,多个应用读 阅读全文
posted @ 2020-04-19 16:06 张永清 阅读(645) 评论(0) 推荐(0)
摘要: 一、总体设计 初来公司时,公司还没有大数据,我是作为大数据架构师招入的,结合公司的线上和线下业务,制定了如下的大数据架构路线图。 二、大数据任务开发和调度平台架构设计 在设计完总体架构后,并且搭建完hadoop/yarn的大数据底层计算平台后, 按照总体架构设计思路, 首先需要构建的就是大数据开发平 阅读全文
posted @ 2020-04-13 17:13 张永清 阅读(3435) 评论(0) 推荐(3)
摘要: atlas 是apache下的大数据的元数据管理和数据治理平台,是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。支持对hive、storm、kafka、hbase 阅读全文
posted @ 2020-04-10 17:25 张永清 阅读(34783) 评论(0) 推荐(4)
摘要: Apache Flume是一个分布式的、可靠的、可用的系统,用于有效地收集、 聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储,但是其本身是以本地properties作为配置的,配置无法做到动态监听和更新。 一、Flume和ETCD的结合,使用ETCD作为flume 数据采集的配置中心。 阅读全文
posted @ 2020-04-02 16:30 张永清 阅读(1436) 评论(1) 推荐(0)
关注清哥聊技术公众号,了解更多技术文章,作者的原创文章,转载须注明出处。原创文章归作者所有,欢迎转载,但是保留版权。对于转载了博主的原创文章,不标注出处的,作者将依法追究版权,请尊重作者的成果。