大模型参数高效微调技术
posted @ 2025-09-29 10:25 GRITJW 阅读(208) 评论(0) 推荐(0)
2025年9月29日 #
posted @ 2025-09-29 10:25 GRITJW 阅读(208) 评论(0) 推荐(0)
2025年9月25日 #
posted @ 2025-09-25 10:52 GRITJW 阅读(236) 评论(0) 推荐(0)
2025年9月24日 #
posted @ 2025-09-24 17:57 GRITJW 阅读(108) 评论(0) 推荐(0)
2025年9月19日 #
从MMoE到PLE:读懂多任务学习架构的渐进式演化 引言 在多任务学习(MTL)领域,MMoE(Multi-gate Mixture-of-Experts)无疑是一个里程碑式的模型,它通过巧妙的软参数共享机制,极大地提升了工业界推荐、广告等系统的多目标优化能力。然而,在面对任务间关系愈发复杂、甚至相 阅读全文
posted @ 2025-09-19 10:24 GRITJW 阅读(203) 评论(0) 推荐(0)
2025年9月18日 #
posted @ 2025-09-18 09:30 GRITJW 阅读(157) 评论(0) 推荐(0)
2025年9月17日 #
posted @ 2025-09-17 16:08 GRITJW 阅读(124) 评论(0) 推荐(0)
2025年9月16日 #
posted @ 2025-09-16 16:10 GRITJW 阅读(1213) 评论(0) 推荐(0)
2025年9月15日 #
posted @ 2025-09-15 11:10 GRITJW 阅读(174) 评论(0) 推荐(0)
注意力机制:从核心原理到前沿应用 如果你关注人工智能,无论是惊艳世人的GPT-4,还是精准洞察你购物偏好的推荐引擎,它们的背后都有一个共同的技术基石——注意力机制 (Attention Mechanism)。 然而,随着技术飞速发展,Attention的“家族”也日益庞大:Self-Attentio 阅读全文
posted @ 2025-09-15 10:17 GRITJW 阅读(462) 评论(0) 推荐(2)
2025年9月14日 #
posted @ 2025-09-14 15:50 GRITJW 阅读(227) 评论(0) 推荐(0)