随笔分类 - 大模型llm
大模型llm
摘要:参考 https://github.com/zhaochenyang20/Awesome-ML-SYS-Tutorial/blob/main/sglang/code-walk-through/readme-CN.md https://github.com/sgl-project/sglang/tre
阅读全文
摘要:参考 https://shen-shanshan.github.io/articles/vllm-v1-整体流程从请求到算子执行/ https://gitee.com/omniai/omniinfer/tree/release_v0.6.0/ https://github.com/vllm-proj
阅读全文
摘要:参考 https://github.com/linzm1007/nano-vllm-ascend Nano-vLLM-Ascend nano-vllm是开源的一个gpu推理项目,基于开源版本弄的一个ascend npu版本推理小demo,旨在帮助初学者了解推理的整体流程,区别于vllm,nano-v
阅读全文
摘要:推理代码 text-generation-webui 推理模型 Qwen1.5-7B-Chat sys infogpu: Tesla V100-PCIE-32GBpython: 3.10model:Qwen1.5-7B-Chatdocker docker run -it --rm --gpus='"
阅读全文
摘要:模型路径 up主为 llama中文社区 模型地址 https://www.modelscope.cn/models/FlagAlpha/Llama3-Chinese-8B-Instruct/summary sys info gpu: Tesla V100-PCIE-32GB python: 3.10
阅读全文
摘要:vllm 版本 4.0.0 镜像 vllm github 官方镜像 gpu v100 32g a800 80g openai api 方式 出现的问题通过 chat-template 聊天模板解决 1 推理部署qwen系列模型 测试 我是谁 问题:回答内容含有分词符,回答有杂论冗余内容 模型文件没有
阅读全文

浙公网安备 33010602011771号