摘要: 摘要:TritonLLM v0.1.0版本已经发布,已经可以pip install安装。gpt-oss-20b在5090上的decode速度从官方发布的90tokens/s来到了136tokens/s。本文记录了影响性能的关键优化方法,同时也总结了我在实践过程中一些未能奏效甚至错误的优化尝试。 项目 阅读全文
posted @ 2025-09-03 06:51 暴力都不会的蒟蒻 阅读(62) 评论(0) 推荐(0)