dataset 库使用小技巧
- 有时在处理数据的时候,我们在数据处理函数内部添加调试语句但是却没有输出,这可能是因为:
- 数据被缓存了,令
overwrite_cache: true即可,这样就会重新调用数据处理函数处理数据(一般在调试的时候使用)
- 数据被缓存了,令
- 在使用llamafactory的时候,制作的一个数据集不要太大(也就是一个
data.json不要太大),能分开尽量分开,不然的话会出现offset overflow while concatenating arrays错误 - 可以设置
HF_DATASETS_CACHE来设定存放数据集的缓存文件的位置- 默认为
$HF_HOME/datasets
- 默认为

浙公网安备 33010602011771号