摘要: -使用与训练:预训练->SFT(监督微调)->RLHF(基于人类反馈的强化学习-奖励机制) -大模型的特点 规模和参数量大;拥有数亿到数千亿级别的参数数量。 适应性和灵活性强;能够通过微调或少量样本学习高效地迁移到各种下游任务,有很强的跨域能力。 广泛数据集的预训练;使用大量多样化的数据进行预训练, 阅读全文
posted @ 2025-10-13 21:35 偷懒的阿贤 阅读(11) 评论(0) 推荐(0)