1、项目环境安装

项目拉取:

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git

模型文件拉取:

# 安装相关依赖
pip install modelscope
# 拉取模型文件
modelscope download --model deepseek-ai/DeepSeek-OCR README.md --local_dir ./dir

环境要求:
本项目要求cuda版本是11.8,否则在编译安装 flash-attn时会出现异常报错

在这里插入图片描述

conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install flash-attn==2.7.3 --no-build-isolation

本文采用的vllm推理框架加载模型,版本是v0.8.5版本,需要事先下载官网提供的whl安装包:

https://github.com/vllm-project/vllm/releases/tag/v0.8.5

在这里插入图片描述

安装vllm:

pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl
# DeepSeek-OCR
pip install -r requirements.txt

安装过程中会出现如下报错,不用管,不会影响正常运行
在这里插入图片描述

2 、运行项目

进入到DeepSeek-OCR-master/DeepSeek-OCR-vll目录

在这里插入图片描述

图片ocr

在进行图片OCR之前,需要首先修改下config.py配置文件

在这里插入图片描述
然后修改run_dpsk_ocr_image.py文件

在这里插入图片描述
运行指令:

python run_dpsk_ocr_image.py

PDF文件OCR

在进行pdf文件OCR之前,需要首先修改下config.py配置文件

在这里插入图片描述
然后修改run_dpsk_ocr_pdf.py文件
在这里插入图片描述

运行指令:

python run_dpsk_ocr_pdf.py