摘要:
参考: https://blog.csdn.net/chacha_/article/details/134527000 这个讲的很好. \(\pi_r\)是我们要的解,我们(4)两边取log得到. y1,y2是两个生成的句子,x是prompt.p是y1比y2好的优化函数.r是reward函数. 机器 阅读全文
posted @ 2023-12-25 17:21
张博的博客
阅读(921)
评论(4)
推荐(0)
contact me:wechat 15122306087