运行 decision transformer 遇到的问题

简介

本质上强化学习也是为了预测下一个action，那能否借用大模型的方法来实现next-action 的预测。业界有多篇借用大模型的方法（transfomer）来实现这个目的。

伯克利的这篇算是最为彻底和简洁。https://sites.google.com/berkeley.edu/decision-transformer

transfomer 官方网站有个实现，但是相对比较难懂点。https://sites.google.com/berkeley.edu/decision-transformer

多番寻找后，找到个更简单的实现，decision transformer 的最小实现

把 r（reward），s（state），a （action）作为序列里面的一个单独输入

所以序列长度是 len * 3

预测action 的时候，利用之前历史时间步的 r，s，a 和当前的 r，s作为输入，下一个a作为输出。同时这个实现也会利用之前历史时间步的 r，s，a 和当前的 r作为输入，预测下一个s

一直报CompileError: /usr/local/lib/python3.10/dist-packages/mujoco_py/cymj.pyx

更换cython 版本后修复

pip install Cython==3.0.0a10

posted @ 2024-02-22 20:54 keycai 阅读(239) 评论(0) 收藏举报

刷新页面返回顶部