作者的原创文章,转载须注明出处。原创文章归作者所有,欢迎转载,但是保留版权。对于转载了博主的原创文章,不标注出处的,作者将依法追究版权,请尊重作者的成果。
摘要: 【推荐序】 1999年,Windows 98只有1800万行代码,运行环境只需要16MB内存、225MB硬盘。而目前最新的Windows 10有6000万行代码,需要8GB内存、20GB硬盘才能流畅地运行。1990年,低速的CAN总线才125kb/s,高速的500kb/s吞吐的CAN总线就能满足整车 阅读全文
posted @ 2024-03-03 17:50 张永清 阅读(288) 评论(0) 推荐(2) 编辑
摘要: 一个系统或者软件性能的重要性自然是无需多说,永远没有哪个用户可以忍受打开一个网站或者软件需要很久才能响应,性能是评估一个系统或者软件最实在的指标,如果一个网站做得再好看、再漂亮,但是性能上不去,那也只是华而不实。 笔者在离开测试岗进入研发岗已经有好几个年头了,按理说不应该再去写关于软件测试的书籍了而 阅读全文
posted @ 2020-03-10 21:26 张永清 阅读(3622) 评论(9) 推荐(2) 编辑
摘要: 序 关于自动化测试的工具和框架其实有很多。自动化测试在测试IT行业中扮演着越来越重要的角色,不管是在传统的IT行业还是高速发展的互联网行业或是如今的大数据和大热的人工智能领域,都离不开测试,也更加离不开自动化测试。自动化测试已经发展了很多年,在很多大的互联网公司里他们不但有自己的自动化测试框架,甚至 阅读全文
posted @ 2019-04-28 22:59 张永清 阅读(3956) 评论(1) 推荐(3) 编辑
摘要: 一、SpringCloud 简介 Spring Cloud 是一系列框架的有序集合如服务发现注册、配置中心、消息总线、负载均衡、熔断器、数据监控等。 SpringCloud 将多个服务框架组合起来,通过Spring Boot进行再封装,屏蔽掉了复杂的配置和实现原理,最终给开发者提供了一套简单易懂、易 阅读全文
posted @ 2023-10-30 14:38 张永清 阅读(2794) 评论(0) 推荐(0) 编辑
摘要: 一、Springboot简介 springboot 是当下最流行的web 框架,Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置,从而使开发人员不再需要定义样板化的配置,让这些框架集成在一起变得 阅读全文
posted @ 2023-10-27 17:04 张永清 阅读(536) 评论(0) 推荐(0) 编辑
摘要: 1 、MySQL数据库的性能监控 1.1、如何查看MySQL数据库的连接数 连接数是指用户已经创建多少个连接,也就是MySQL中通过执行 SHOW PROCESSLIST命令输出结果中运行着的线程个数的详情,如图所示。 SHOW PROCESSLIST默认情况下只显示前100条记录的详情,如果超过1 阅读全文
posted @ 2022-11-11 15:56 张永清 阅读(1086) 评论(0) 推荐(0) 编辑
摘要: 1、Prometheus简介 Prometheus(中文名:普罗米修斯)是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB). Prometheus使用Go语言开发, 是Google BorgMon监控系统的开源版本。 Prometheus的基本原理是通过HTTP协议周期性抓取被 阅读全文
posted @ 2022-09-29 10:32 张永清 阅读(3383) 评论(0) 推荐(0) 编辑
摘要: 1、Spark Catalyst扩展点 Spark catalyst的扩展点在SPARK-18127中被引入,Spark用户可以在SQL处理的各个阶段扩展自定义实现,非常强大高效,是SparkSQL的核心组件(查询优化器),它负责将SQL语句转换成物理执行计划,Catalyst的优劣决定了SQL执行 阅读全文
posted @ 2022-06-07 13:55 张永清 阅读(669) 评论(0) 推荐(0) 编辑
摘要: 一、JMeter 如何通过自定义Sample来压测RPC服务 RPC(Remote Procedure Call)俗称远程过程调用,是常用的一种高效的服务调用方式,也是性能压测时经常遇到的一种服务调用形式。常见的RPC有GRPC、Thrift、Dubbo等。这里以GRPC为例介绍在JMeter中如何 阅读全文
posted @ 2022-06-03 15:04 张永清 阅读(1696) 评论(0) 推荐(0) 编辑
摘要: 一、CK 分布式表和本地表 (1)CK是一个纯列式存储的数据库,一个列就是硬盘上的一个或多个文件(多个分区有多个文件),关于列式存储这里就不展开了,总之列存对于分析来讲好处更大,因为每个列单独存储,所以每一列数据可以压缩,不仅节省了硬盘,还可以降低磁盘IO。 (2)CK是多核并行处理的,为了充分利用 阅读全文
posted @ 2022-03-02 11:22 张永清 阅读(2553) 评论(0) 推荐(0) 编辑
摘要: Java编程语言自从诞生起,就成为了一门非常流行的编程语言,覆盖了互联网、安卓应用、后端应用、大数据等很多技术领域,因此Java应用程序的性能分析和调优也是一门非常重要的课题。Java应用程序的性能直接关系到了很多大型电商网站的访问承载能力、大数据的数据处理量等,它的性能分析和调优往往还可以节省很多 阅读全文
posted @ 2022-03-01 16:00 张永清 阅读(1287) 评论(0) 推荐(0) 编辑
摘要: 一、JAVA list 转 DataFrame or DataSet case class CaseJava( var num: String, var id: String, var start_time: String, var istop_time: String) val listData: 阅读全文
posted @ 2022-03-01 15:31 张永清 阅读(2128) 评论(0) 推荐(0) 编辑
摘要: 1、structured-streaming的state 配置项总结 Config Name Description Default Value spark.sql.streaming.stateStore.rocksdb.compactOnCommit Whether we perform a r 阅读全文
posted @ 2021-12-03 14:24 张永清 阅读(2804) 评论(0) 推荐(0) 编辑
摘要: 一、Spark-StructuredStreaming checkpointLocation 介绍 Structured Streaming 在 Spark 2.0 版本于 2016 年引入, 是基于 Spark SQL 引擎构建的可扩展且容错的流处理引擎,对比传统的 Spark Streaming 阅读全文
posted @ 2021-11-22 14:33 张永清 阅读(1005) 评论(0) 推荐(0) 编辑
摘要: 一、java获取kafka consumer lag、endOffsets、beginningOffsets maven依赖: <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId 阅读全文
posted @ 2021-11-17 16:30 张永清 阅读(1771) 评论(0) 推荐(0) 编辑
摘要: 一、spark structured-streaming 介绍 我们都知道spark streaming 在v2.4.5 之后 就进入了维护阶段,不再有新的大版本出现,而且 spark streaming 一直是按照微批来处理streaming 数据的,只能做到准实时,无法像flink一样做到数据的 阅读全文
posted @ 2021-11-06 15:45 张永清 阅读(1679) 评论(0) 推荐(0) 编辑
摘要: 一、当后缀名为zip、gzip,spark可以自动处理和读取 1、spark非常智能,如果一批压缩的zip和gzip文件,并且里面为一堆text文件时,可以用如下方式读取或者获取读取后的schema spark.read.text("xxxxxxxx/xxxx.zip") spark.read.te 阅读全文
posted @ 2021-11-06 12:47 张永清 阅读(3787) 评论(0) 推荐(0) 编辑
摘要: 窗口函数与分析函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询 窗口函数FIRST_VALUE:取分组内排序后,截止到当前行,第一个值LAST_VALUE: 取分组内排序后,截止到当前行,最后一个值LEAD(col,n,DEFAULT) :用于统 阅读全文
posted @ 2021-08-30 11:07 张永清 阅读(1318) 评论(0) 推荐(0) 编辑
摘要: 一、问题现象,使用flink on yarn 模式,写入数据到clickhouse,但是在yarn 集群充足的情况下一直报:Deployment took more than 60 seconds. Please check if the requested resources are availa 阅读全文
posted @ 2021-08-14 13:22 张永清 阅读(2390) 评论(0) 推荐(0) 编辑
摘要: 1、启动时报错<Error> Application: DB::Exception: There is no profile 'default' in configuration file. 2021.08.07 15:05:30.719723 [ 1 ] {} <Information> : St 阅读全文
posted @ 2021-08-07 18:23 张永清 阅读(4428) 评论(0) 推荐(0) 编辑
摘要: 1、错误异常信息: Exception in thread "main" java.lang.IllegalArgumentException: Failed to find metadata store by url: kylin_metadata@hbase at org.apache.kyli 阅读全文
posted @ 2021-08-07 15:47 张永清 阅读(2385) 评论(0) 推荐(0) 编辑
摘要: 一、简介 InfluxDB(时序数据库)influxdb是一个开源分布式时序、时间和指标数据库,使用 Go 语言编写,无需外部依赖。其设计目标是实现分布式和水平伸缩扩展,是 InfluxData 的核心产品。常用的一种使用场景:监控数据统计,物联网传感器数据和实 时分析等的后端存储。每毫秒记录一下电 阅读全文
posted @ 2021-06-17 11:26 张永清 阅读(3022) 评论(0) 推荐(0) 编辑
摘要: 开源大数据OLAP组件,可以分为MOLAP和ROLAP两类。ROLAP中又可细分为MPP数据库和SQL引擎两类。对于SQL引擎又可以再细分为基于MPP架构的SQL引擎和基于通用计算框架的SQL引擎: MOLAP一般对数据存储有优化,并且进行部分预计算,因此查询性能最高。但通常对查询灵活性有限制。 M 阅读全文
posted @ 2021-06-11 11:55 张永清 阅读(891) 评论(0) 推荐(0) 编辑
摘要: 一、shuffle调优 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源 阅读全文
posted @ 2021-05-18 17:43 张永清 阅读(296) 评论(0) 推荐(0) 编辑
摘要: 一、incubator-dolphinscheduler 中如何获取shell类型的节点或者python类型的节点任务的日志 1、在org.apache.dolphinscheduler.server.worker.task.AbstractCommandExecutor 类中通过java.lang 阅读全文
posted @ 2021-04-08 17:50 张永清 阅读(1074) 评论(0) 推荐(0) 编辑
摘要: 一、prometheus和grafana 简介 Prometheus 是继 Kubernetes 之后的第二个 CNCF “毕业” 项目,其监控理念传承于由谷歌研发的一款内部监控软件,现主要开发语言为 go,代码目前已经托管在 github 中,遵从 apache 2.0 开源协议,受欢迎的程度非常 阅读全文
posted @ 2021-03-15 18:01 张永清 阅读(1122) 评论(0) 推荐(0) 编辑
摘要: 一、概述 谈到并发,不得不谈ReentrantLock;而谈到ReentrantLock,不得不谈AbstractQueuedSynchronizer(AQS)! 类如其名,抽象的队列式的同步器,AQS定义了一套多线程访问共享资源的同步器框架,许多同步类实现都依赖于它,如常用的ReentrantLo 阅读全文
posted @ 2021-03-05 16:53 张永清 阅读(104) 评论(0) 推荐(0) 编辑
摘要: 联童科技是一家智能化母婴童产业平台,从事母婴童行业以及互联网技术多年,拥有丰富的母婴门店运营和系统开发经验,在会员经营和商品经营方面,能够围绕会员需求,深入场景,更贴近合作伙伴和消费者,提供最优服务产品,公司致力于以技术来驱动母婴童产业的发展,公司也希望借助于大数据为客户提供更多智能数据分析和决策分 阅读全文
posted @ 2021-02-20 11:16 张永清 阅读(1997) 评论(2) 推荐(0) 编辑
摘要: 本文主要阐述软件性能测试中的一些调优思想和技术,节选自作者新书《软件性能测试分析与调优实践之路》部分章节归纳。 在国内互联网公司中,Web中间件用的最多的就是Apache和Nginx这两款了,包括很多大型电商网站淘宝、京东、苏宁易购等,都在使用Nginx或者Apache作为Web中间件。而且很多编程 阅读全文
posted @ 2021-01-10 22:10 张永清 阅读(2286) 评论(0) 推荐(0) 编辑
摘要: 本文主要包含如下内容: ClickHouse适用场景 ClickHouse缺点 ClickHouse优点 ClickHouse表引擎-合并树 ClickHouse表引擎-合并树-稀疏索引 ClickHouse表引擎-内存引擎 ClickHouse表引擎-其他引擎 ClickHouse数据同步 Cli 阅读全文
posted @ 2020-12-17 14:10 张永清 阅读(751) 评论(0) 推荐(0) 编辑
摘要: 本文主要阐述软件性能测试中的一些调优思想和技术,节选自作者新书《软件性能测试分析与调优实践之路》部分章节归纳。 一、 性能分析与调优思想 1、性能分析调优模型 性能测试除了为获取性能指标外,更多是为了发现性能瓶颈和性能问题,然后对性能问题和瓶颈进行分析和调优,在当今互联网高速发展的时代,性能调优的模 阅读全文
posted @ 2020-09-13 11:41 张永清 阅读(4220) 评论(0) 推荐(2) 编辑
摘要: 自动化测试如果需要能高效快速的支撑软件项目的测试,项目的快速迭代以及上线,除了以上我们介绍的需要许多的Lib来支持以及需要高效的去编写自动化测试案例外,还需要一个好的自动化测试框架平台来支撑我们的自动化测试案例的执行以及分析,自动化测试平台一般需要解决测试案例执行任务的创建,任务的管理,任务的调度, 阅读全文
posted @ 2020-09-06 16:27 张永清 阅读(1395) 评论(0) 推荐(1) 编辑
摘要: 框架 Apache Hadoop:分布式处理架构,结合了 MapReduce(并行处理)、YARN(作业调度)和HDFS(分布式文件系统); Tigon:高吞吐量实时流处理框架。 分布式编程 AddThis Hydra :最初在AddThis上开发的分布式数据处理和存储系统; AMPLab SIMR 阅读全文
posted @ 2020-07-16 17:34 张永清 阅读(1808) 评论(0) 推荐(0) 编辑
摘要: 一、关于自己 我是一名80后的IT老兵,从今年出现疫情后,就感觉多少有些力不从心了,因为公司的业务做的不好,公司是做普惠金融的,疫情出现后,催收逾期就非常厉害,导致公司不敢大量放贷,从而就出现了公司收益减少。这时候公司内部很多人就慌了,因为担心公司会裁员或者降薪,果不其然,复工后公司果然要开始降薪了 阅读全文
posted @ 2020-07-16 11:12 张永清 阅读(2020) 评论(0) 推荐(2) 编辑
摘要: 一、微服务架构设计中经常需要处理的问题罗列: API Gateway 内部服务间互相调用 服务发现 服务容错、熔断、降级 服务部署 数据处理 二、设计模式 1、微服务-聚合器设计模式: 聚合器调用多个服务实现应用程序所需的功能。它可以是一个简单的 WEB 页面,将检索到的数据进行处理展示。它也可以是 阅读全文
posted @ 2020-06-24 15:24 张永清 阅读(2361) 评论(0) 推荐(0) 编辑
摘要: 一、异常现象截图 二、解决方式: 1、背景 早期的canal版本(<=1.0.24),在处理表结构的DDL变更时采用了一种简单的策略,在内存里维护了一个当前数据库内表结构的镜像(通过desc table获取)。 这样的内存表结构镜像的维护存在问题,如果当前在处理的binlog为历史时间段T0,当前时 阅读全文
posted @ 2020-06-24 14:26 张永清 阅读(5404) 评论(0) 推荐(1) 编辑
摘要: 一、ODS层ODS 全称是 Operational Data Store,一般对应的是操作性数据存储,直接面向主题的,也叫数据运营层,通常是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就是通常说的 ETL 之后的数据存入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而 阅读全文
posted @ 2020-06-04 13:02 张永清 阅读(3282) 评论(0) 推荐(0) 编辑
摘要: 一、MPP 架构 1、MPP架构的基础概念 MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼 阅读全文
posted @ 2020-06-04 12:42 张永清 阅读(6972) 评论(0) 推荐(2) 编辑
摘要: 一、问题:Windows 下 flume采集配置TAILDIR的时候,会报如下错误: agent.sources.seqGenSrc.type = TAILDIR agent.sources.seqGenSrc.positionFile = .\\taildir_mongodb_position.j 阅读全文
posted @ 2020-05-06 15:52 张永清 阅读(2119) 评论(0) 推荐(0) 编辑
摘要: 一、curator-framework 简介 curator-framework 是对zookeeper做的分二次分布式封装处理,目前代码也是apache 开源社区维护,如下所示。 github地址:https://github.com/apache/curator curator-framewor 阅读全文
posted @ 2020-04-24 16:28 张永清 阅读(3976) 评论(0) 推荐(0) 编辑
摘要: 作为分布式系统解决方案的 ZooKeeper,被广泛应用于多个分布式场景。例如:数据发布/订阅,负载均衡,命名服务,集群管理等等。 因此,ZooKeeper 在分布式系统中扮演着重要的角色,今天通过一个简单的例子来看看它的实现原理。 从一个简单的例子开始 在分布式系统中经常会遇到这种情况,多个应用读 阅读全文
posted @ 2020-04-19 16:06 张永清 阅读(616) 评论(0) 推荐(0) 编辑
摘要: 一、总体设计 初来公司时,公司还没有大数据,我是作为大数据架构师招入的,结合公司的线上和线下业务,制定了如下的大数据架构路线图。 二、大数据任务开发和调度平台架构设计 在设计完总体架构后,并且搭建完hadoop/yarn的大数据底层计算平台后, 按照总体架构设计思路, 首先需要构建的就是大数据开发平 阅读全文
posted @ 2020-04-13 17:13 张永清 阅读(3149) 评论(0) 推荐(3) 编辑
作者的原创文章,转载须注明出处。原创文章归作者所有,欢迎转载,但是保留版权。对于转载了博主的原创文章,不标注出处的,作者将依法追究版权,请尊重作者的成果。