摘要: LLM自我改进的典型范式是在自生成数据上训练LLM,但是其中的部分数据可能有害,所以应该被过滤掉。但是目前的工作主要采用基于答案正确性的过滤策略,在这篇论文中,证明过滤掉正确但具有高分布偏移程度(DSE)的样本也可以有利于自我改进的结果。 论文的主要贡献如下: 提出了一个称为DS权重的指标,借助一个 阅读全文
posted @ 2024-08-23 10:48 deephub 阅读(27) 评论(0) 推荐(0)