随笔分类 - 深度学习

DPO Llama

摘要：转：https://huggingface.co/blog/zh/dpo-trl 简介基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback，RLHF) 事实上已成为 GPT-4 或 Claude 等 LLM 训练的最后一步，它可以确保语言模阅读全文

posted @ 2023-09-13 16:30 高空降落阅读(220) 评论(0) 推荐(0)

版本问题---cuda和tensorflow的版本对应关系

摘要：cuda和tensorflow的版本有对应关系 https://tensorflow.google.cn/install/source linux 阅读全文

posted @ 2020-05-19 16:04 高空降落阅读(10146) 评论(0) 推荐(0)

高空降落

随笔分类 - 深度学习

公告