摘要:
把 OOD 的 Q 函数值拉低,ID 的 Q 函数值拉高,因此倾向于选择原来数据集里有的 ID 的 action。 阅读全文
posted @ 2023-11-07 15:12
MoonOut
阅读(1188)
评论(0)
推荐(3)
摘要:
sup inf ≤ inf sup,证明关键: inf_w f(w,z) 是 f(w0,z) 逐点下界,对于任意 w0。 阅读全文
posted @ 2023-11-07 10:51
MoonOut
阅读(318)
评论(1)
推荐(0)

浙公网安备 33010602011771号