dataset 库使用小技巧

  • 有时在处理数据的时候,我们在数据处理函数内部添加调试语句但是却没有输出,这可能是因为:
    • 数据被缓存了,令overwrite_cache: true即可,这样就会重新调用数据处理函数处理数据(一般在调试的时候使用)
  • 在使用llamafactory的时候,制作的一个数据集不要太大(也就是一个data.json不要太大),能分开尽量分开,不然的话会出现offset overflow while concatenating arrays错误
  • 可以设置HF_DATASETS_CACHE来设定存放数据集的缓存文件的位置
    • 默认为$HF_HOME/datasets
posted @ 2025-10-25 23:35  最爱丁珰  阅读(7)  评论(0)    收藏  举报