随笔档案「2025年3月28日」：强化学习入门：使用AlphaZero算法实现井字棋web人机对战游戏 ... - AI_Engineer

2025年3月28日

摘要：背景 AlphaZero 是由 DeepMind 开发的一种通用强化学习算法，于 2017 年首次提出（2018年发于science）。通过深度神经网络与蒙特卡洛树搜索（MCTS）的结合，无需依赖特定的领域知识，只需通过自对弈的方式训练模型，在围棋、国际象棋、将棋等复杂策略游戏中展现出超越人类顶尖选阅读全文

posted @ 2025-03-28 17:59 AI_Engineer 阅读(409) 评论(0) 推荐(0)

google LTV预估论文《A Deep Probabilistic Model for Customer Lifetime Value Prediction》

摘要：问题给定用户特征，预估未来n天的付费概率、付费金额数据分布长尾分布：90% 用户不付费，10% 用户付费付费金额的范围非常广建模方案 1. 直接用MSE建模LTV 缺点：由于用户LTR分布是0值和连续值的混合，而MSE假设label服从正态分布，容易被0值主导，模型倾向于预估一个接近0的值阅读全文

posted @ 2025-03-28 15:42 AI_Engineer 阅读(363) 评论(0) 推荐(0)

xd_xumaomao

公告