会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
BobHuang
首页
新随笔
联系
管理
2025年9月3日
TritonLLM v0.1.0: 基于 Triton 的大模型推理初步探索
摘要: 摘要:TritonLLM v0.1.0版本已经发布,已经可以pip install安装。gpt-oss-20b在5090上的decode速度从官方发布的90tokens/s来到了136tokens/s。本文记录了影响性能的关键优化方法,同时也总结了我在实践过程中一些未能奏效甚至错误的优化尝试。 项目
阅读全文
posted @ 2025-09-03 06:51 暴力都不会的蒟蒻
阅读(62)
评论(0)
推荐(0)
公告