摘要:
背景 在日常工作中,有时会遇到一些突发流量,突发流量虽然持续时间短,但形成的流量洪峰不容小觑,对于系统来说也是较大的冲击。应用、数据库等方面都会有明显的跳点,持续时间越长,风险越大。 突发流量的来源,有时是来自JSF、RESTful等远程服务调用,也可能是MQ事件消息,也可能是系统自身的一些定时任务 阅读全文
posted @ 2026-03-18 13:25
京东云开发者
阅读(11)
评论(0)
推荐(0)
摘要:
背景 在我们系统中,承接多种行业,多种商家的,多个业务条线,不同场景的的不同业务诉求,在实现上将个性和通用字段隔离,通用字段是所有条线通用逻辑所共用的标准字段,对于个别条线的个性化诉求,则通过个性化扩展字段来实现。 通用字段,作用于通用逻辑,所有条线走到相应功能时,会对通用字段读写。而对于个性扩展字 阅读全文
posted @ 2026-03-18 13:25
京东云开发者
阅读(11)
评论(0)
推荐(0)
摘要:
摘要: 在十万卡集群与万亿参数模型时代,基础设施的稳定性直接决定了模型训练的边际成本。当单次训练成本高达千万美元时,监控系统不再是简单的报警,而是衡量算力价值的精算师。基于一线智算运维实践,探讨如何打破数据中心、服务器与网络之间的数据壁垒,构建具备业务感知能力的下一代智算监控体系。 一、 核心痛点: 阅读全文
posted @ 2026-03-18 13:25
京东云开发者
阅读(28)
评论(0)
推荐(0)
浙公网安备 33010602011771号