摘要: **需求描述:** 当我们训练模型的时候,我们要训练很多训练步数,我们想要保存训练到一定阶段的checkpoint模型参数,并把这些checkpoint模型保存到一个指定的文件夹下。在文件夹下我们最多保存`keep_checkpoint_max`个checkpoint模型的文件。保存到`output 阅读全文
posted @ 2023-07-07 21:24 张Zong在修行 阅读(248) 评论(0) 推荐(0) 编辑
摘要: ### glob模块简介 glob模块可以查找符合特定规则的文件路径名,用来查找文件目录和文件,并将搜索的到的结果返回到一个列表中。常见的两个方法有`glob.glob()`和`glob.iglob()`,类似windows下的文件搜索。glob支持`*?[]`这三种通配符。 ### glob模块的 阅读全文
posted @ 2023-07-07 18:58 张Zong在修行 阅读(185) 评论(0) 推荐(0) 编辑
摘要: Pytorch保存模型等相关参数,利用`torch.save()`,以及读取保存之后的文件。 ### 函数信息 ```python torch.save(obj, f, pickle_module=pickle, pickle_protocol=DEFAULT_PROTOCOL,_use_new_z 阅读全文
posted @ 2023-07-07 18:22 张Zong在修行 阅读(1934) 评论(0) 推荐(0) 编辑
摘要: ### 查看GPU 编号及其使用信息 ```shell $ nvidia-smi ``` 其中左上侧有0、1、2、3的编号,表示GPU的编号,在后面指定GPU时需要使用这个编号。 我们可以查看这些卡使用的信息,我们用来查看哪些卡在空闲状态。 ### 指定使用的GPU #### 方法一:在终端执行程序 阅读全文
posted @ 2023-07-07 17:29 张Zong在修行 阅读(1599) 评论(0) 推荐(0) 编辑
摘要: curl是一个命令行访问URL的计算机逻辑语言的工具,发出网络请求,然后得到数据并提取出,显示在标准输出“stdout”上面,可以用它来构造http request报文,curl(CommandLine Uniform Resource Locator),即在命令行中利用URL进行数据或者文件传输。 阅读全文
posted @ 2023-07-07 16:50 张Zong在修行 阅读(610) 评论(0) 推荐(0) 编辑
摘要: 1、一些成熟的库的封装,有其一系列的配套的模型,标记器,训练函数......。我们要是想使用对应的函数工具,我们首先要把自己的模型注册成人家的模型后,使用起来才不会有很多错。 所有尽量不要用各种封装的库进行拼接,可能会有很多坑。 2、数据处理是十分重要的,甚至占绝大部分时间。因为数据的质量对模型的性 阅读全文
posted @ 2023-07-07 14:14 张Zong在修行 阅读(19) 评论(0) 推荐(0) 编辑
摘要: **报错信息** 在执行nlp自定义模型的训练函数的时候,报如下错误: ```python RuntimeError: expected scalar type Float but found Long ``` **错误原因** ```python 错误信息指出了问题所在:模型期望的数据类型是 fl 阅读全文
posted @ 2023-07-07 12:56 张Zong在修行 阅读(369) 评论(0) 推荐(0) 编辑
摘要: ### 一、不要尝试使用huggingface的Trainer函数加载自定义模型 理论上说,Hugging Face的Trainer函数可以加载自定义模型,只要您的模型是基于PyTorch或TensorFlow实现的,并且实现了必要的方法(如`forward`方法和`from_pretrained` 阅读全文
posted @ 2023-07-07 12:14 张Zong在修行 阅读(458) 评论(0) 推荐(0) 编辑