摘要:
年初部署了deepseek,距离现在有一阵子了,两台H800部署,整体下来首token3s以内,输入1000,输出500-900左右的情况下算力能支持到32并发。使用vllm部署,但是在部署的时候因为没有测试环境,直接上的生产,所以对于部署时的参数没有充分的调整。导致最大长度一直是32k。 这个地方 阅读全文
posted @ 2025-06-16 04:44
吴建明wujianming
阅读(649)
评论(0)
推荐(0)
摘要:
6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天猫 阅读全文
posted @ 2025-06-16 04:41
吴建明wujianming
阅读(19)
评论(0)
推荐(0)

浙公网安备 33010602011771号