在线强化调研tdcq666

大模型下的强化学习

针对大模型：Mobile-R1,针对智能体的在线训练
https://qbitai.com/2025/07/310850.html
动作级、任务级的在线训练
论文：

在线训练流程图：

传统机器学习模型的在线强化学习案例

1. 推荐系统

阿里在双十一的搜索引擎上强化学习的应用

https://cloud.tencent.cn/developer/article/1116675?from=15425

分层架构：Offline-Nearline-Online三层架构

亚马逊推荐算法改进

https://app.zx.zbj.com/baike/23993.html

其中提到了强化学习的优化：
建立A/B测试反馈闭环，通过Q-learning算法：
自动调整推荐位置和频次
识别高转化率但低曝光的潜力商品

2. 在线广告竞价与投放

没找到好的例子

3. 金融风控与反欺诈

4. 工业与能源优化

仅新闻：

诺基亚：
Indosat网络：通过AI监控流量，在低负载时段关闭部分射频单元。
http://cww.net.cn/article?id=602017

无线网络能源管控平台(EMP)：利用智能体和深度学习动态优化基站能效。
https://test.txrjy.com/forum.php?mod=viewthread&action=printable&tid=1391515
设定明确的操作边界：为AI系统设定不可逾越的“护栏”。在诺基亚的案例中，其AI节能方案明确设定了 “不影响网络KPI（关键绩效指标）” 的前提。这意味着所有的优化动作都必须在不损害用户体验和网络质量的安全范围内进行。

在线训练如何保证模型结果不变差

保障机制	核心思想	具体做法
1. 探索与利用的平衡	不盲目相信新学到的模式，而是以小步、谨慎的方式更新。	使用 ε-greedy、Thompson Sampling 或 UCB 等策略，大部分时间使用当前最优模型（利用），小部分时间尝试新策略（探索）。
2. 影子模式/并行评估	在不影响线上真实用户的情况下，测试新模型。	将新模型的决策并行运行，但最终执行的是旧模型的决策。通过对比新老模型的“虚拟收益”来评估新模型性能，只有稳定优于老模型才会被推上线。
3. 多臂赌博机框架	将问题简化，避免对复杂模型进行全局更新。	在很多推荐场景中，并不直接更新整个模型，而是使用 Contextual Bandit 算法，只为每个“情境”选择最好的“臂”（动作），风险被限制在单次决策内。
4. 渐进式发布与回滚	像发布软件一样发布模型。	新模型先推给小部分用户（如1%的流量），密切监控核心业务指标（如点击率、转化率）。如果指标稳定或提升，再逐步放大流量；如果指标下跌，则立即自动回滚到上一个稳定版本。
5. 强监控与警报	建立完善的监控系统。	实时监控模型的输入数据分布、预测结果分布、以及关键业务指标。一旦发现数据漂移或指标异常，立即触发警报并干预。

posted @ 2025-10-07 09:46 天道酬秦qq 阅读(14) 评论(0) 收藏举报

刷新页面返回顶部