摘要: GPU 永远不够用,这大概是每个做推理服务的人都有的共识。相比无脑加卡,更实际的办法是把现有资源榨干。下面这些是我在实际项目里反复用到的几个调优手段,有代码、有数据、也有一些踩坑经验。 https://avoid.overfit.cn/post/fe3bc408622e424695dbcc27f0b 阅读全文
posted @ 2025-10-08 21:32 deephub 阅读(57) 评论(0) 推荐(0)