GlenTt

导航

2025年9月29日 #

大模型参数高效微调技术

摘要: 大模型参数高效微调技术 引言 我们正处在一个由基础模型(Foundation Models)驱动的时代。GPT、Llama、Claude等大规模预训练语言模型(LLM)已成为理解和生成语言的通用引擎,展现出惊人的能力。然而,这些强大的通用模型如同未经雕琢的璞玉,要将其应用于特定场景并确保其行为符合人 阅读全文

posted @ 2025-09-29 10:25 GRITJW 阅读(208) 评论(0) 推荐(0)

2025年9月25日 #

注意力机制下的位置编码的理解和梳理

摘要: 位置编码的理解和梳理 引言 Transformer的悖论 自2017年横空出世以来,Transformer架构已然成为序列建模领域的一场革命,因其卓越的并行计算能力和捕捉全局依赖的强大性能而备受赞誉。它构成了当今最先进的大型语言模型(LLMs)的基石。然而,在这座宏伟的架构丰碑之下,隐藏着一个核心的 阅读全文

posted @ 2025-09-25 10:52 GRITJW 阅读(236) 评论(0) 推荐(0)

2025年9月24日 #

Attention复杂度解析与改进方向

摘要: Attention复杂度解析与改进方向 摘要/引言 在大规模语言模型(LLM)浪潮中,扩展模型上下文窗口长度被认为是提升模型能力和应用范围的关键方向。然而,现代Transformer结构中的自注意力机制,其时间和空间复杂度均为二次方级(\(O(N^2)\)),成为限制序列长度扩展的根本瓶颈。有研究指 阅读全文

posted @ 2025-09-24 17:57 GRITJW 阅读(108) 评论(0) 推荐(0)

2025年9月19日 #

从MMoE到PLE:读懂多任务学习架构的渐进式演化

摘要: 从MMoE到PLE:读懂多任务学习架构的渐进式演化 从MMoE到PLE:读懂多任务学习架构的渐进式演化 引言 在多任务学习(MTL)领域,MMoE(Multi-gate Mixture-of-Experts)无疑是一个里程碑式的模型,它通过巧妙的软参数共享机制,极大地提升了工业界推荐、广告等系统的多目标优化能力。然而,在面对任务间关系愈发复杂、甚至相 阅读全文

posted @ 2025-09-19 10:24 GRITJW 阅读(203) 评论(0) 推荐(0)

2025年9月18日 #

MMoE学习笔记:利用门控专家网络高效建模多任务关系

摘要: MMoE学习笔记:利用门控专家网络高效建模多任务关系 引言 多任务学习(Multi-Task Learning, MTL)已成为大规模推荐系统、计算广告等工业应用领域的标准技术范式。它旨在通过共享信息,利用相关任务中蕴含的知识来提升模型的学习效率和泛化能力。然而,传统的 MTL 方法,尤其是以 Sh 阅读全文

posted @ 2025-09-18 09:30 GRITJW 阅读(157) 评论(0) 推荐(0)

2025年9月17日 #

ESMM学习笔记:如何解决CVR预估中的样本选择偏差与数据稀疏难题

摘要: ESMM模型精解:如何解决CVR预估中的样本选择偏差与数据稀疏难题 引言 在现代推荐系统与计算广告中,对点击后转化率(Post-Click Conversion Rate, CVR)的精准预估是优化平台收益与用户体验的核心环节。然而,传统的 CVR 预估模型在工业实践中普遍面临两大技术瓶颈:样本选择 阅读全文

posted @ 2025-09-17 16:08 GRITJW 阅读(124) 评论(0) 推荐(0)

2025年9月16日 #

深度剖析RQ-VAE:从向量量化到生成式推荐的语义ID技术

摘要: 深度剖析RQ-VAE:从向量量化到生成式推荐的语义ID技术 引言 近年来,大规模推荐系统正经历一场深刻的范式演进,其趋势是从传统的双塔召回模型(Dual-Encoder + ANN)向更为灵活和强大的生成式检索(Generative Retrieval)范式迁移。后者借鉴了自然语言处理领域的成功经验 阅读全文

posted @ 2025-09-16 16:10 GRITJW 阅读(1213) 评论(0) 推荐(0)

2025年9月15日 #

深度学习激活函数:从原理到选型

摘要: 深度学习激活函数:从原理到选型 1. 引言:激活函数的根本作用 在构建神经网络时,我们习惯性地在层与层之间添加激活函数,但其根本作用是什么?简而言之,激活函数是为网络引入非线性表达能力的核心组件。 如果一个深度神经网络完全由线性层(如全连接层、卷积层)堆叠而成,而没有非线性激活,那么无论网络有多少层 阅读全文

posted @ 2025-09-15 11:10 GRITJW 阅读(174) 评论(0) 推荐(0)

注意力机制:从核心原理到前沿应用

摘要: 注意力机制:从核心原理到前沿应用 注意力机制:从核心原理到前沿应用 如果你关注人工智能,无论是惊艳世人的GPT-4,还是精准洞察你购物偏好的推荐引擎,它们的背后都有一个共同的技术基石——注意力机制 (Attention Mechanism)。 然而,随着技术飞速发展,Attention的“家族”也日益庞大:Self-Attentio 阅读全文

posted @ 2025-09-15 10:17 GRITJW 阅读(462) 评论(0) 推荐(2)

2025年9月14日 #

推荐系统中负采样策略及采样偏差的校正方法

摘要: 推荐系统中负采样策略的剖析与实践 摘要 (Abstract) 负采样(Negative Sampling)是训练基于隐式反馈的现代推荐系统的核心技术。通过为观测到的正样本构建高质量的负样本,模型能够学习到用户的个性化偏好。然而,负采样的策略并非一成不变,其选择与推荐系统的阶段(召回、排序)、用户行为 阅读全文

posted @ 2025-09-14 15:50 GRITJW 阅读(227) 评论(0) 推荐(0)