摘要:一、选型背景 公司营收业绩高速增长,业务快速向前奔跑,对基础技术上线既要超、快、猛,又要保证服务质量,所以前期选型稳妥方案为MySQL router,但他的核心功能上仅支持读写分离、读写库高可用、动态增删DB节点,而读写性能却无法应对每月大幅增长的数据。对业务拆分同时进行分库分表势在必行。基于以上场
阅读全文
摘要:一、业务背景 es服务当前没有专门的部门负责维护和开发,交由各端自行负责维护,随着公司业务查询和统计需求非常多,会面临居多方面问题和挑战: 无人(专业RD或部门)负责 无专业的人进行维护,遇到问题几乎无人处理 缺乏性能评估 查询和统计相关语句执行无指标评价体系 运维效率较低 无操作友好且高效的web
阅读全文
摘要:软素质提升 有效沟通 《关键对话》 团队合作 《六顶思考帽》 文档写作 《麦肯锡写作武器》 《结构思考力丛书》 《金字塔原理》 工作汇报 《向上管理的艺术:如何正确汇报工作》 技术规划 参考《OKR工作法》 《工作计划》 项目管理 网易一千零一夜《互联网产品项目管理实战》 《最后期限》 《项目管理知
阅读全文
摘要:问题描述 5月底到6月初期间,一旦push kafka集群流量到达高峰,Kafka Producer就会出现写入超时,会丢失部分消息。解决此问题周期比较长,是个循序渐进的过程影响范围:部分topics的推送消息丢失故障处理人:xxx 处理过程 05月29日 16:00 xxx组织push超时讨论会议
阅读全文
摘要:业务问题 据滴滴介绍2014年使用的Kafka-0.8.2,一个核心业务在使用Kafka的时候,出现了集群数据写入抖动非常严重的情况,经常会有数据写失败。 • 随着业务增长,Topic的数据增多,集群负载增大,性能下降• 有个文件读写锁bug,会导致副本重新复制,复制的时候有大量的读,我们存储盘用的
阅读全文
摘要:业务背景 网易云音乐从13年4月上线以来,业务和用户突飞猛进。后台技术也从传统的 Tomcat 集群到分布式微服务快速演进和迭代,在业务的不断催生下,诞生了云音乐的 RPC,API 网关和链路跟踪等多种服务,消息队列也从 RabbitMQ 集群迁移到 Kafka集群。对于消息队列,更多处于使用阶段,
阅读全文
摘要:业务问题 跨IDC读写导致带宽压力大问题。多个业务还可能有重复consume和produce,造成跨IDC网络的极大浪费, 另外跨IDC网络并不稳定,经常遇到一些异常 业务直接使用官方裸客户端有困难,要进行二次封装 异常情况会catch不全 使用好kafka对业务有较高要求 客户端容错不能完全cov
阅读全文
摘要:一、发展历程 早期淘宝内部有两套消息中间件系统:Notify和Napoli。 先有的Notify(至今12历史),后来因有序场景需求,且恰好当时Kafka开源(2011年),所以参照Kafka的设计理念自研了RocketMQ。 目前Notify和RocketMQ二者的定位如下: RocketQ 主要
阅读全文
摘要:问题描述 2018年xx月xx日 下午4点20分左右 xxx无意中看到xxx正在排查线上Kafka集群遇到的问题,随后问明情况,有一台机器上Kafka进程挂了,当时他正在lark平台上查看错误日志信息,随后我一起加入排查问题。事故起止时间:2018年xx月xx日 16时30分~2018年9月13日
阅读全文
摘要:前言背景 算法优化改版有大需求要上线,在线特征dump数据逐步放量,最终达到现有Kafka集群5倍的流量,预计峰值达到万兆网卡80%左右(集群有几十个物理节点,有几PB的容量,网卡峰值流出流量会达到800MB左右/sec、写入消息QPS为100w+ msgs/sec)。上下游服务需要做扩容评估,提前
阅读全文
摘要:1.问题描述 2018-12-16 23:53起,因10.120.14.1节点出现问题,已经无法ssh上去,导致xxx lag延迟上升,在17日凌晨1:43掉线,落在该节点但leader partition无法转移,凌晨3点磁盘故障,恢复后集群大面积不可用,直至凌晨7:30以后集群逐渐恢复起止时间:
阅读全文
摘要:1.问题描述 事故起止时间:第一次 2019年03月05日 20时30分~ 21时20分第二次 2019年03月06日 17时43分~ 18时21分第三次 2019年03月10日 17时43分~ 03月11日10时21分事故影响:客户端生产消费不可用,机器学习训练暂停负责人:xxx、xxx、xxx
阅读全文
摘要:前言背景 消息系统经过多年使用和运维管理平台开发迭代,能较好支持支撑业务发展,公司主流语言为java,但缺乏一个基于Kafka二次封装简单好用的java客户端。遇到问题如下所示: 使用好kafka客户端对业务要求高,非专业技术方向很难有精力全面掌握 异常情况会catch不全 客户端生产消息及双活机房
阅读全文
摘要:1.资源优化与提升 资源利用率提升10%,再下线至少8台机器 用户使用收集与优化 2.kafka客户端重构 支持双活机房 优雅重启 安全性加强(访问认证/授权/隔离) 调度调配多集群间访问 API接口简化,达到开箱即用 发送消息容灾、容错、降级支持 消息轨迹跟踪支持,帮助业务排查异常 消息发送耗时,
阅读全文
摘要:TCP网络优化 sudo vim /etc/sysctl.conf vm.max_map_count=655360net.core.rmem_default=262144net.core.rmem_max=2097152net.core.wmem_default=262144net.core.wme
阅读全文