摘要:
官网:https://openai.com/blog/chatgpt/ Methods 我们使用来自人类反馈的强化学习(RLHF)来训练这个模型,使用与InstructionGPT相同的方法,但数据收集设置略有不同。我们使用有监督的微调训练了一个初始模型:人工智能训练师提供对话,他们扮演用户和人工智 阅读全文
posted @ 2023-02-08 16:12
穷酸秀才大草包
阅读(717)
评论(0)
推荐(0)

浙公网安备 33010602011771号