会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
alchemystar
博客园
首页
新随笔
联系
订阅
管理
[置顶]
Prometheus时序数据库-磁盘中的存储结构
摘要: Prometheus时序数据库-磁盘中的存储结构 前言 之前的文章里,笔者详细描述了监控数据在Prometheus内存中的结构。而其在磁盘中的存储结构,也是非常有意思的,关于这部分内容,将在本篇文章进行阐述。 磁盘目录结构 首先我们来看Prometheus运行后,所形成的文件目录结构 在笔者自己的机
阅读全文
posted @ 2021-03-01 09:59 无毁的湖光-Al
阅读(1444)
评论(3)
推荐(2)
[置顶]
Prometheus时序数据库-内存中的存储结构
摘要: Prometheus时序数据库-内存中的存储结构 前言 笔者最近担起了公司监控的重任,而当前监控最流行的数据库即是Prometheus。按照笔者打破砂锅问到底的精神,自然要把这个开源组件源码搞明白才行。在经过一系列源码/资料的阅读以及各种Debug之后,对其内部机制有了一定的认识。今天,笔者就来介绍
阅读全文
posted @ 2021-02-22 10:42 无毁的湖光-Al
阅读(2775)
评论(6)
推荐(2)
[置顶]
从Linux源码看Socket(TCP)的accept
摘要: 从Linux源码看Socket(TCP)的accept 前言 笔者一直觉得如果能知道从应用到框架再到操作系统的每一处代码,是一件Exciting的事情。 今天笔者就从Linux源码的角度看下Server端的Socket在进行Accept的时候到底做了哪些事情(基于Linux 3.10内核)。 一个最
阅读全文
posted @ 2020-12-07 12:18 无毁的湖光-Al
阅读(1822)
评论(7)
推荐(4)
[置顶]
从Linux源码看TIME_WAIT状态的持续时间
摘要: 从Linux源码看TIME_WAIT状态的持续时间 前言 笔者一直以为在Linux下TIME_WAIT状态的Socket持续状态是60s左右。线上实际却存在TIME_WAIT超过100s的Socket。由于这牵涉到最近出现的一个复杂Bug的分析。所以,笔者就去Linux源码里面,一探究竟。 首先介绍
阅读全文
posted @ 2020-10-27 11:27 无毁的湖光-Al
阅读(2722)
评论(2)
推荐(3)
[置顶]
自己动手写SQL执行引擎
摘要: 自己动手写SQL执行引擎 前言 在阅读了大量关于数据库的资料后,笔者情不自禁产生了一个造数据库轮子的想法。来验证一下自己对于数据库底层原理的掌握是否牢靠。在笔者的github中给这个database起名为Freedom。 整体结构 既然造轮子,那当然得从前端的网络协议交互到后端的文件存储全部给撸一遍
阅读全文
posted @ 2020-09-25 10:17 无毁的湖光-Al
阅读(6108)
评论(41)
推荐(60)
[置顶]
解Bug之路-记一次对端机器宕机后的tcp行为
摘要: 解Bug之路-记一次对端机器宕机后的tcp行为 前言 机器一般过质保之后,就会因为各种各样的问题而宕机。而这一次的宕机,让笔者观察到了平常观察不到的tcp在对端宕机情况下的行为。经过详细跟踪分析原因之后,发现可以通过调整内核tcp参数来减少宕机造成的影响。 Bug现场 笔者所在的公司用某个中间件的古
阅读全文
posted @ 2020-09-21 10:16 无毁的湖光-Al
阅读(2873)
评论(6)
推荐(10)
2025年5月6日
日常问题排查-空闲一段时间再请求就超时
摘要: 其实这个问题笔者一直遇到,而且解决方案也一直有,但从没有真正的仔细思考过。但最近读《tcpip路由技术》卷二突然灵光一闪,将书中的一些阐述和这个问题莫名的关联想通了其中的关窍
阅读全文
posted @ 2025-05-06 09:20 无毁的湖光-Al
阅读(2825)
评论(8)
推荐(23)
2024年6月26日
日常Bug排查-改表时读数据不一致
摘要: 前言 日常Bug排查系列都是一些简单Bug的排查。笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材。 Bug现场 线上连续两天出现NP异常,而且都是凌晨低峰期才出现,在凌晨的流量远没有白天高峰期大。而出问题的接口又是通常的业务请求。于是,很自然的,我们就想凌晨有什么特殊的运维动作,翻了下时
阅读全文
posted @ 2024-06-26 09:00 无毁的湖光-Al
阅读(1607)
评论(0)
推荐(4)
2024年6月3日
日常Bug排查-MVCC和for update混用导致读数据不一致
摘要: 日常Bug排查-MVCC和for update混用导致读数据不一致 前言 日常Bug排查系列都是一些简单Bug的排查。笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材。 Bug现场 又是喜闻乐见的读数据不一致的问题。这次的问题是这样,业务在一个事务中更新A和B两个表的两个数据。但是在另一个
阅读全文
posted @ 2024-06-03 09:00 无毁的湖光-Al
阅读(351)
评论(0)
推荐(1)
2024年5月20日
日常Bug排查-偶发性读数据不一致
摘要: 日常Bug排查-偶发性读数据不一致 前言 日常Bug排查系列都是一些简单Bug的排查。笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材。 Bug现场 业务场景 先描述这个问题出现的业务场景。这是一个支付的场景,如果支付成功了,我们就把支付状态置为success(主单据更新)同时写入支付成功
阅读全文
posted @ 2024-05-20 09:00 无毁的湖光-Al
阅读(1798)
评论(11)
推荐(7)
2024年5月13日
日常Bug排查-连接突然全部关闭
摘要: 日常Bug排查-连接突然全部关闭 前言 日常Bug排查系列都是一些简单Bug的排查。笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材。 Bug现场 最近碰到一个问题,一台机器上的连接数在达到一定连接数(大概4.5W)连接数之后会突然急速下降到几百。在应用上的表现就是大量的连接报错,系统失去
阅读全文
posted @ 2024-05-13 09:00 无毁的湖光-Al
阅读(2980)
评论(15)
推荐(19)
2024年1月15日
日常Bug排查-集群逐步失去响应
摘要: 前言 日常Bug排查系列都是一些简单Bug排查。笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材_ Bug现场 最近碰到一个产线问题,表现为某个应用集群所有的节点全部下线了。导致上游调用全部报错。而且从时间线分析来看。这个应用的节点是逐步失去响应的。因为请求量较小,直到最后一台也失去响应后
阅读全文
posted @ 2024-01-15 09:00 无毁的湖光-Al
阅读(1880)
评论(7)
推荐(7)
2023年9月27日
日常Bug排查-读从库没有原子性?
摘要: 日常Bug排查系列都是一些简单Bug排查。问题虽小,但经常遇到,了解这些问题,会让我们少走点弯路,提升效率。说不定有些问题你遇到过哦:) Bug现场 业务开发同学突然问了笔者一个问题,从库读会不会没有原子性?我下意识的反应怎么可能,只要是遵守MySQL主从Replication协议的原子性至少是能够
阅读全文
posted @ 2023-09-27 16:39 无毁的湖光-Al
阅读(1003)
评论(5)
推荐(6)
2023年4月11日
解Bug之路-应用999线升高
摘要: 前言 监控指标诚然是发现问题于微末之时的极佳手段,但指标往往有其表达的极限。在很多情况下,单独看一个黄金指标并不能表征系统的健康程度,反而有可能被其迷惑,进而忽略相关问题。(本文所提及的Linux Kernel源码版本为4.18.10) Bug现场 某天中午,某应用的999线突然升高。由于是个QPS
阅读全文
posted @ 2023-04-11 10:10 无毁的湖光-Al
阅读(2119)
评论(3)
推荐(13)
2021年6月22日
解Bug之路-ZooKeeper集群拒绝服务
摘要: 解Bug之路-ZooKeeper集群拒绝服务 前言 ZooKeeper作为dubbo的注册中心,可谓是重中之重,线上ZK的任何风吹草动都会牵动心弦。最近笔者就碰到线上ZK Leader宕机后,选主无法成功导致ZK集群拒绝服务的现象,于是把这个case写出来分享给大家(基于ZooKeeper 3.4.
阅读全文
posted @ 2021-06-22 09:50 无毁的湖光-Al
阅读(4227)
评论(9)
推荐(17)
2021年6月16日
日常Bug排查-Nginx重复请求?
摘要: 日常Bug排查-Nginx重复请求? 前言 日常Bug排查系列都是一些简单Bug排查,笔者将在这里介绍一些排查Bug的简单技巧,其中不乏一些看起来很低级但很容易犯的问题。 问题现场 有一天运维突然找到我,要我协助排查一个问题。业务开发怀疑Nginx会重复相同的请求,就感觉Nginx自己重试了一样。而
阅读全文
posted @ 2021-06-16 10:18 无毁的湖光-Al
阅读(1510)
评论(4)
推荐(2)
下一页
公告