摘要:
测试总体框架可以用这个 在工业与能源优化这种高价值、高风险的环境中,直接将未经充分测试的在线强化学习智能体部署到生产系统是完全不可接受的。因此,建立一个严谨、可靠的“发版前测试”流程至关重要。 这个流程可以看作是一个从完全安全到逐步开放的“部署漏斗”,其核心思想是在尽可能逼真但完全可控的环境中,评估 阅读全文
posted @ 2025-10-07 13:10
天道酬秦qq
阅读(11)
评论(0)
推荐(0)
摘要:
大模型下的强化学习 针对大模型:Mobile-R1,针对智能体的在线训练 https://qbitai.com/2025/07/310850.html 动作级、任务级的在线训练 论文: 在线训练流程图: 传统机器学习模型的在线强化学习案例 1. 推荐系统 阿里在双十一的搜索引擎上强化学习的应用 ht 阅读全文
posted @ 2025-10-07 09:46
天道酬秦qq
阅读(12)
评论(0)
推荐(0)