源码方式本地化部署deepseek和量化

前置条件

1.python环境，安装教程：https://www.python.org/downloads/
2.wsl环境(Windows系统)，安装教程：https://learn.microsoft.com/zh-cn/windows/wsl/install

第一步下载大模型

模型仓库：https://huggingface.co/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d

第二步配置环境

1.安装cuda

https://www.cnblogs.com/zijie1024/articles/18375637

2.安装pytorch

使用命令nvidia-smi，查看cuda版本
在官网选择对应版本下载
官网：https://pytorch.org/get-started/locally/

得到命令：pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu12
如果pip3安装失败就改为pip

3.安装依赖包

pip install bitsandbytes
pip install transformers
pip install accelerate

View Code

如果提示：ModuleNotFoundError: No module named 'torch'
执行：pip install --upgrade pip setuptools wheel

第三步运行

1.直接运行

try:
    from transformers import AutoModelForCausalLM, AutoTokenizer
    import torch
except ImportError as e:
    print(f"导入库时发生错误: {e}，请确保 transformers 和 torch 库已正确安装。")
else:
    try:
        # 模型和分词器的本地路径
        model_path = "."  
        # 加载分词器
        tokenizer = AutoTokenizer.from_pretrained(model_path)

        # 加载模型
        model = AutoModelForCausalLM.from_pretrained(model_path)

        # 检查是否可以使用 GPU 并设置设备
        device = "cuda" if torch.cuda.is_available() else "cpu"
        if device == "cuda":
            print("Using GPU for inference.")
        else:
            print("Using CPU for inference.")
        model.to(device)

        # 示例输入
        input_text = "你是哪个模型?"
        inputs = tokenizer(input_text, return_tensors="pt").to(device)

        # 模型推理
        with torch.no_grad():  # 禁用梯度计算，减少内存占用
            outputs = model.generate(**inputs, max_length=2000, num_return_sequences=1,
                                     no_repeat_ngram_size=2, temperature=1.0, top_k=50, top_p=0.95)

        generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
        print("Generated text:", generated_text)

    except FileNotFoundError:
        print(f"模型文件未找到，请检查路径: {model_path}")
    except Exception as e:
        print(f"发生错误: {e}")
    finally:
        # 如果是在 GPU 上运行，尝试清理缓存
        if device == "cuda":
            torch.cuda.empty_cache()