摘要:
地址: http://www.co-journal.com/CN/rich_html/10.12382/bgxb.2023.0827 利用领域知识、专家知识等先验知识对巡飞弹避障模型进行探索引导,能够使算法快速学会基础规则与策略,降低算法在无效状态空间中的探索时间。模仿学习是其中最为行之有效的引导技 阅读全文
posted @ 2024-12-06 12:14
Angry_Panda
阅读(78)
评论(0)
推荐(0)
地址: http://www.co-journal.com/CN/10.12382/bgxb.2022.0711 这个论文主要是看如何处理所谓的SAC强化学习算法在军事上的应用和其中提出的元策略算法 + option-critic分层强化学习的组合,不过这个论文看完感觉不知道是如何做的,其中的描述也
浙公网安备 33010602011771号