摘要: 摘要:gpt-oss 提供了triton implementation供研究用,你可以使用单卡H100,也就是80 GB显存的Hopper or Blackwell 去跑gpt-oss-120b,其使用了 支持 MXFP4的 Triton MoE 算子来减少显存占用。我用5090 32G显存跑了20 阅读全文
posted @ 2025-08-07 06:22 暴力都不会的蒟蒻 阅读(320) 评论(0) 推荐(0)