GlenTt

导航

2025年9月14日 #

用 Focal Loss 应对类别不平衡

摘要: 用 Focal Loss 应对类别不平衡 当面临类别极度不平衡的数据时,标准的交叉熵损失会因大量易分样本的主导而失效。Focal Loss 通过引入动态调制因子,强制模型聚焦于训练过程中的“硬核”样本,是解决此类问题的关键技术。 1. 核心公式回顾 Focal Loss 在标准交叉熵的基础上,增加了 阅读全文

posted @ 2025-09-14 11:14 GRITJW 阅读(85) 评论(0) 推荐(0)

回归任务的基石:MSE 损失函数理解与实现

摘要: 回归任务的基石:MSE 损失函数详解与实现 在回归问题领域,均方误差 (Mean Squared Error, MSE) 是最常用、最直观的损失函数。它衡量的是模型预测值与真实值之间的差距。今天,我们就来深入探讨 MSE 的核心思想,并给出一个简洁的 NumPy 实现。 1. 核心公式 MSE 的定 阅读全文

posted @ 2025-09-14 10:50 GRITJW 阅读(196) 评论(0) 推荐(0)

高效实现 BCE Loss:从理论到数值稳定的代码

摘要: 高效实现 BCE Loss:从理论到数值稳定的代码 在任何二分类任务中,二元交叉熵 (Binary Cross-Entropy, BCE) 损失函数都是基石。然而,一个看似简单的公式背后,却隐藏着数值计算的陷阱。今天,我们直击要点,讲解如何从理论公式演进到工业级的稳定代码实现。 1. 基础 BCE 阅读全文

posted @ 2025-09-14 10:39 GRITJW 阅读(56) 评论(0) 推荐(0)

2025年9月12日 #

从自注意力到 HSTU:解构下一代推荐系统引擎

摘要: 从自注意力到 HSTU:解构下一代推荐系统引擎 摘要: 长期以来,深度学习推荐模型 (DLRMs) 一直是业界的主流。然而,随着数据和算力的爆炸式增长,这些模型逐渐暴露出扩展性的瓶颈——即性能提升饱和的问题。为了突破这一天花板,学术界和工业界开始将目光投向了在自然语言处理领域大放异彩的生成式范式。本 阅读全文

posted @ 2025-09-12 11:58 GRITJW 阅读(486) 评论(0) 推荐(0)

2025年9月10日 #

推荐系统中正则化技术的理解与剖析

摘要: 推荐系统中正则化技术的理解与剖析 引言:从过拟合的“魔咒”谈起 作为一名深耕推荐系统领域的算法工程师,我深知模型训练中的一个永恒“魔咒”——过拟合。当模型在训练集上表现得天衣无缝,几乎能完美复现每一个历史数据点,却在面对从未见过的新数据时,预测结果大相径庭,这正是过拟合的典型表现。它就像一个精通历史 阅读全文

posted @ 2025-09-10 13:15 GRITJW 阅读(51) 评论(0) 推荐(0)

推荐系统中神经网络超参数调优—经验顺序方法

摘要: 推荐系统中神经网络超参数调优方法 摘要 在深度学习驱动的推荐系统领域,模型性能的提升不仅依赖于创新的架构设计,更关键地取决于对超参数(Hyperparameters)的精细调校。本报告旨在为入门的机器学习工程师和研究人员提供一个系统化的、分阶段的超参数调优工作流。报告的核心论点在于,超参数调优并非一 阅读全文

posted @ 2025-09-10 11:00 GRITJW 阅读(52) 评论(0) 推荐(0)

2025年8月19日 #

infoNCE中正样本边距(Margin)的直观理解

摘要: infoNCE中正样本边距(Margin)的直观理解。 生活场景 想象你是一位老师,要训练学生识别"真品"和"赝品"古董。最初,你可能只要求学生能够区分出真品就行了——只要判断正确就给满分。但很快你会发现一个问题:学生们只是勉强能区分,一旦遇到制作精良的赝品就容易出错。 这时,一位经验丰富的老师会怎 阅读全文

posted @ 2025-08-19 14:52 GRITJW 阅读(92) 评论(0) 推荐(0)

2025年8月7日 #

PLE模型简洁解读

摘要: PLE模型简洁解读 基础设定 有 2 个任务:CTR、CVR 使用 1 层 PLE(num_levels = 1) 每个任务 2 个任务特定专家(specific_expert_num = 2) 有 1 个共享专家(shared_expert_num = 1) 输入 embedding 是:[bat 阅读全文

posted @ 2025-08-07 20:10 GRITJW 阅读(93) 评论(0) 推荐(0)

ESMM 核心总结笔记

摘要: ESMM 核心总结笔记 背景 在电商推荐场景下,我们的最终目标是让用户在看到商品(曝光)后完成下单(转化)。如果直接把这个“曝光→转化”的联合概率当成一个单一的预测目标(CTCVR)来训练,正样本——也就是既被曝光又产生了转化的记录——在海量用户行为日志里极度稀少,模型很难从如此稀疏的数据中学到有用 阅读全文

posted @ 2025-08-07 14:12 GRITJW 阅读(49) 评论(0) 推荐(0)

2025年8月2日 #

深度学习归一化技术全景解析:原理、对比与应用建议

摘要: 🔧 深度学习归一化技术全景解析:原理、对比与应用建议 一、引言 大家好,我是Glen。今天和大家分享我对归一化技术的理解。当我第一次接触深度神经网络时,最困扰我的问题就是训练不稳定——有时候模型训练得很好,有时候梯度就爆炸了,有时候又消失得无影无踪。直到我深入理解了归一化技术,才意识到这些问题的根 阅读全文

posted @ 2025-08-02 11:13 GRITJW 阅读(171) 评论(0) 推荐(0)