运行 decision transformer 遇到的问题
简介
本质上强化学习也是为了预测下一个action,那能否借用大模型的方法来实现next-action 的预测。业界有多篇借用大模型的方法(transfomer) 来实现这个目的。
伯克利的这篇算是最为彻底和简洁。https://sites.google.com/berkeley.edu/decision-transformer
transfomer 官方网站有个实现,但是相对比较难懂点。https://sites.google.com/berkeley.edu/decision-transformer
多番寻找后,找到个更简单的实现,decision transformer 的最小实现
把 r(reward),s(state),a (action)作为序列里面的一个单独输入
所以 序列长度是 len * 3
预测action 的时候,利用之前历史时间步的 r,s,a 和 当前的 r,s作为输入,下一个a作为输出。同时这个实现也会利用之前历史时间步的 r,s,a 和 当前的 r作为输入,预测下一个s
运行 decision transformer 遇到的问题
一直报CompileError: /usr/local/lib/python3.10/dist-packages/mujoco_py/cymj.pyx
更换cython 版本后修复
pip install Cython==3.0.0a10
浙公网安备 33010602011771号