GRITJW - 博客园

用 Focal Loss 应对类别不平衡

摘要：用 Focal Loss 应对类别不平衡当面临类别极度不平衡的数据时，标准的交叉熵损失会因大量易分样本的主导而失效。Focal Loss 通过引入动态调制因子，强制模型聚焦于训练过程中的“硬核”样本，是解决此类问题的关键技术。 1. 核心公式回顾 Focal Loss 在标准交叉熵的基础上，增加了阅读全文

posted @ 2025-09-14 11:14 GRITJW 阅读(85) 评论(0) 推荐(0)

回归任务的基石：MSE 损失函数理解与实现

摘要：回归任务的基石：MSE 损失函数详解与实现在回归问题领域，均方误差 (Mean Squared Error, MSE) 是最常用、最直观的损失函数。它衡量的是模型预测值与真实值之间的差距。今天，我们就来深入探讨 MSE 的核心思想，并给出一个简洁的 NumPy 实现。 1. 核心公式 MSE 的定阅读全文

posted @ 2025-09-14 10:50 GRITJW 阅读(196) 评论(0) 推荐(0)

高效实现 BCE Loss：从理论到数值稳定的代码

摘要：高效实现 BCE Loss：从理论到数值稳定的代码在任何二分类任务中，二元交叉熵 (Binary Cross-Entropy, BCE) 损失函数都是基石。然而，一个看似简单的公式背后，却隐藏着数值计算的陷阱。今天，我们直击要点，讲解如何从理论公式演进到工业级的稳定代码实现。 1. 基础 BCE 阅读全文

posted @ 2025-09-14 10:39 GRITJW 阅读(56) 评论(0) 推荐(0)

从自注意力到 HSTU：解构下一代推荐系统引擎

摘要：从自注意力到 HSTU：解构下一代推荐系统引擎摘要: 长期以来，深度学习推荐模型 (DLRMs) 一直是业界的主流。然而，随着数据和算力的爆炸式增长，这些模型逐渐暴露出扩展性的瓶颈——即性能提升饱和的问题。为了突破这一天花板，学术界和工业界开始将目光投向了在自然语言处理领域大放异彩的生成式范式。本阅读全文

posted @ 2025-09-12 11:58 GRITJW 阅读(486) 评论(0) 推荐(0)

infoNCE中正样本边距（Margin）的直观理解

摘要： infoNCE中正样本边距（Margin）的直观理解。生活场景想象你是一位老师，要训练学生识别"真品"和"赝品"古董。最初，你可能只要求学生能够区分出真品就行了——只要判断正确就给满分。但很快你会发现一个问题：学生们只是勉强能区分，一旦遇到制作精良的赝品就容易出错。这时，一位经验丰富的老师会怎阅读全文

posted @ 2025-08-19 14:52 GRITJW 阅读(92) 评论(0) 推荐(0)

PLE模型简洁解读

摘要： PLE模型简洁解读基础设定有 2 个任务：CTR、CVR 使用 1 层 PLE（num_levels = 1）每个任务 2 个任务特定专家（specific_expert_num = 2）有 1 个共享专家（shared_expert_num = 1）输入 embedding 是：[bat 阅读全文

posted @ 2025-08-07 20:10 GRITJW 阅读(93) 评论(0) 推荐(0)

ESMM 核心总结笔记

摘要： ESMM 核心总结笔记背景在电商推荐场景下，我们的最终目标是让用户在看到商品（曝光）后完成下单（转化）。如果直接把这个“曝光→转化”的联合概率当成一个单一的预测目标（CTCVR）来训练，正样本——也就是既被曝光又产生了转化的记录——在海量用户行为日志里极度稀少，模型很难从如此稀疏的数据中学到有用阅读全文

posted @ 2025-08-07 14:12 GRITJW 阅读(49) 评论(0) 推荐(0)

深度学习归一化技术全景解析：原理、对比与应用建议

摘要： 🔧 深度学习归一化技术全景解析：原理、对比与应用建议一、引言大家好，我是Glen。今天和大家分享我对归一化技术的理解。当我第一次接触深度神经网络时，最困扰我的问题就是训练不稳定——有时候模型训练得很好，有时候梯度就爆炸了，有时候又消失得无影无踪。直到我深入理解了归一化技术，才意识到这些问题的根阅读全文

posted @ 2025-08-02 11:13 GRITJW 阅读(171) 评论(0) 推荐(0)

GlenTt

导航

公告