摘要: safetensors Header: 文件的元数据(大小、版本) Meta data: 列表,每个元素表示文件里存的张量的类型、形状、偏移量 Tensor data: 列表元素对应的张量数据 gguf gguf不依赖外部的配置文件,它可以把配置文件、词表、tokenizer、template等存入 阅读全文
posted @ 2025-02-28 13:40 片刻的自由 阅读(1318) 评论(0) 推荐(0)
摘要: 这篇论文提出使用超网络生成专家模型的参数,实现可控的、能根据用户偏好预测的专家模型。 Related works 长尾学习(long-tailed learning)的方法包括重采样、设计损失函数,旨在提高尾部类的表现。然而,这类方法往往假设测试集是类别平衡的,在训练时的操作也是希望学到一个均衡预测 阅读全文
posted @ 2025-02-28 08:47 片刻的自由 阅读(82) 评论(0) 推荐(0)