无法连接huggingface.co问题解决方案快速下载huggingface

huggingface-cli 和 hf_transfer 是 hugging face 官方提供的专门为下载而设计的工具链。前者是一个命令行工具，后者是下载加速模块。

huggingface-cli 隶属于 huggingface_hub 库，不仅可以下载模型、数据，还可以可以登录huggingface、上传模型、数据等。

安装依赖

pip install -U huggingface_hub

注意：huggingface_hub 依赖于 Python>=3.8，此外需要安装 0.17.0 及以上的版本，推荐0.19.0+。

基本用法

huggingface-cli download --resume-download bigscience/bloom-560m --local-dir bloom-560m

下载数据

huggingface-cli download --resume-download --repo-type dataset lavita/medical-qa-shared-task-v1-toy

huggingface-cli 属于官方工具，其长期支持肯定是最好的。非常推荐。

除了长期支持这个优点，官方工具最大的一个优点，在于可以用模型名直接引用模型。

什么意思呢？我们知道，from_pretrain 函数可以接收一个模型的id，也可以接收模型的存储路径。

假如我们用浏览器下载了一个模型，存储到服务器的 /data/gpt2 下了，调用的时候你得写模型的绝对路径

AutoModelForCausalLM.from_pretrained("/data/gpt2")

然而如果你用的

AutoModelForCausalLM.from_pretrained("/data/gpt2")

下载，即使你把模型存储到了自己指定的目录，但是你仍然可以简单的用模型的名字来引用他。即：

AutoModelForCausalLM.from_pretrained("gpt2")

原理是因为huggingface工具链会在 .cache/huggingface/ 下维护一份模型的符号链接，无论你是否指定了模型的存储路径，缓存目录下都会链接过去，这样可以避免自己忘了自己曾经下过某个模型，此外调用的时候就很方便。

所以用了官方工具，既可以方便的用模型名引用模型，又可以自己把模型集中存在一个自定义的路径，方便管理。

当然，该工具目前还是有一些缺点的：

一是其存储逻辑不太直观，其默认会把模型下载到 ~/.cache/huggingface/hub/ 中，即使设置了 --local-dir，也会采用符号链接的形式进行链接，其目的在于防止重复下载。然而我们有时候只想简单的下载到特定目录，其中有一项 --local-dir-use-symlinks，设置为 False 可以部分解决该问题，虽然仍会临时下载到 ~/.cache/huggingface/hub/，但下载完成后会移动到 --local-dir 指定的目录。

二是由于上述逻辑的问题，主动Ctrl+C中断后，断点续传有时存在bug，导致同样的文件无法中断恢复，会重头下载。相信官方后续会改进。

三是不支持单文件多线程。目前的行为是多文件并行，一次性会同时下载多个文件。

四是遇到网络中断会报错退出，不会自动重试，需要重新手动执行。

posted @ 2025-03-14 11:37 xsan 阅读(2275) 评论(0) 收藏举报

刷新页面返回顶部

xsan

无法连接huggingface.co问题解决方案 快速下载huggingface

公告

无法连接huggingface.co问题解决方案快速下载huggingface