摘要:
在模型持续提升的道路上,只提升Generator能力是不够的,需要同步提升Supervisor、Verifier的能力,才能提供有效的监督优化信号。人类提供的监督信号有几类,包括人工直接生成最优回答 阅读全文
在模型持续提升的道路上,只提升Generator能力是不够的,需要同步提升Supervisor、Verifier的能力,才能提供有效的监督优化信号。人类提供的监督信号有几类,包括人工直接生成最优回答 阅读全文
posted @ 2024-11-25 08:07
风雨中的小七
阅读(730)
评论(0)
推荐(0)

浙公网安备 33010602011771号