2023 年 2月 8 日随笔档案 - 穷酸秀才大草包

2023年2月8日

ChatGPT: Optimizing Language Models for Dialogue

摘要：官网：https://openai.com/blog/chatgpt/ Methods 我们使用来自人类反馈的强化学习（RLHF）来训练这个模型，使用与InstructionGPT相同的方法，但数据收集设置略有不同。我们使用有监督的微调训练了一个初始模型：人工智能训练师提供对话，他们扮演用户和人工智阅读全文

posted @ 2023-02-08 16:12 穷酸秀才大草包阅读(754) 评论(0) 推荐(0)

Muesli: Combining Improvements in Policy Optimization

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ ICML 2021: 4214-4226 Abstract 我们提出了一种新的策略更新，将正则化策略优化与模型学习相结合，作为辅助损失。这一更新（此后称为Muesli）与MuZero在Atari上的最先进性能相匹配。值得注意的是，Mues 阅读全文

posted @ 2023-02-08 11:11 穷酸秀才大草包阅读(168) 评论(0) 推荐(0)

穷酸秀才大艹包

导航

公告