会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
21
22
23
24
25
26
27
28
29
···
139
下一页
2025年2月25日
SelfCite: 通过自监督奖励提升LLM对上下文内容的引用质量
摘要: 大型语言模型 (LLM) 在文本生成领域展现出卓越的能力,然而当需要 引用上下文内容 以支撑其生成内容时,现有方法仍面临挑战。 传统方法在引导 LLM 准确、可靠地对上下文内容进行引用时,容易产生 幻觉,即生成与上下文不符或缺乏上下文依据的引用,从而降低了生成回复的可信度和实用性。 为了解决这一关键
阅读全文
posted @ 2025-02-25 10:53 deephub
阅读(12)
评论(0)
推荐(0)
2025年2月24日
用PyTorch从零构建 DeepSeek R1:模型架构和分步训练详解
摘要: DeepSeek R1 的完整训练流程核心在于,在其基础模型 DeepSeek V3 之上,运用了多种强化学习策略。本文将从一个可本地运行的基础模型起步,并参照其技术报告,完全从零开始构建 DeepSeek R1,理论结合实践,逐步深入每个训练环节。通过可视化方式,由浅入深地解析 DeepSeek
阅读全文
posted @ 2025-02-24 11:25 deephub
阅读(126)
评论(0)
推荐(0)
2025年2月23日
SmolLM2:多阶段训练策略优化和高质量数据集,小型语言模型同样可以实现卓越的性能表现
摘要: SmolLM2 采用创新的四阶段训练策略,在仅使用 1.7B 参数的情况下,成功挑战了大型语言模型的性能边界: 在 MMLU-Pro 等测试中超越 Qwen2.5-1.5B 近 6 个百分点 数学推理能力(GSM8K、MATH)优于 Llama3.2-1B 在代码生成和文本重写任务中展现出色表现 支
阅读全文
posted @ 2025-02-23 10:38 deephub
阅读(60)
评论(0)
推荐(0)
2025年2月22日
Diffusion-DPO:一种基于直接偏好优化的扩散模型对齐新方法
摘要: 本文介绍了一种名为 Diffusion-DPO 的方法,该方法改编自最近提出的直接偏好优化 (DPO)。DPO 作为 RLHF 的简化替代方案,通过分类目标直接优化策略,以更好地满足人类偏好。 诸如 GPT-4 和 Llama 2 等高性能大型语言模型 (LLM) 的训练通常分为两个阶段: http
阅读全文
posted @ 2025-02-22 11:34 deephub
阅读(93)
评论(0)
推荐(0)
2025年2月21日
LLM高效推理:KV缓存与分页注意力机制深度解析
摘要: 随着大型语言模型(LLM)规模和复杂性的持续增长,高效推理的重要性日益凸显。KV(键值)缓存与分页注意力是两种优化LLM推理的关键技术。本文将深入剖析这些概念,阐述其重要性,并探讨它们在仅解码器(decoder-only)模型中的工作原理。 https://avoid.overfit.cn/post
阅读全文
posted @ 2025-02-21 17:50 deephub
阅读(64)
评论(0)
推荐(0)
2025年2月20日
Vision Transformer中的图像块嵌入详解:线性投影和二维卷积的数学原理与代码实现
摘要: Transformer 架构因其强大的通用性而备受瞩目,它能够处理文本、图像或任何类型的数据及其组合。其核心的“Attention”机制通过计算序列中每个 token 之间的自相似性,从而实现对各种类型数据的总结和生成。在 Vision Transformer 中,图像首先被分解为正方形图像块,然后
阅读全文
posted @ 2025-02-20 10:58 deephub
阅读(75)
评论(0)
推荐(0)
2025年2月19日
STAR: 利用时空注意力机制和动态频率损失的视频超分辨率增强框架
摘要: STAR (Spatial-Temporal Augmentation with Text-to-Video Models) 提出了一种创新的视频超分辨率解决方案,针对现有模型中存在的过度平滑和时间一致性不足等问题进行了系统性改进。该方法基于文本到视频(T2V)扩散模型架构,通过优化时序建模能力,有
阅读全文
posted @ 2025-02-19 10:24 deephub
阅读(41)
评论(0)
推荐(0)
2025年2月18日
DeepMind发布Matryoshka(套娃)量化:利用嵌套表示实现多精度LLM的低比特深度学习
摘要: 本文将介绍 Google DeepMind 提出的 Matryoshka 量化技术,该技术通过从单个大型语言模型 (LLM) 实现多精度模型部署,从而革新深度学习。我们将深入研究这项创新技术如何提高 LLM 的效率和准确性。 随着深度学习模型在规模和复杂度上持续增长,效率和灵活性变得至关重要。量化作
阅读全文
posted @ 2025-02-18 10:44 deephub
阅读(37)
评论(0)
推荐(0)
2025年2月17日
MOIRAI-MOE: 基于混合专家系统的大规模时间序列预测模型
摘要: 作为早期时间序列基础模型之一,Salesforce 开发的 MOIRAI 凭借其出色的基准测试性能以及开源的大规模预训练数据集 LOTSA 在业界获得了广泛关注。 本文在此前对 MOIRAI 架构原理的深入分析基础上,重点探讨其最新升级版本 MOIRAI-MOE。该版本通过引入混合专家模型(Mixt
阅读全文
posted @ 2025-02-17 10:58 deephub
阅读(116)
评论(0)
推荐(0)
2025年2月16日
知识蒸馏方法探究:Google Distilling Step-by-Step 论文深度分析
摘要: 大型语言模型 (Large Language Models, LLMs) 的发展日新月异。从最初的简单对话系统,到如今能够执行文本生成、语言翻译和代码编写等复杂任务的先进模型,LLM 技术实现了跨越式的进步。 然而这些模型的规模和计算需求也呈指数级增长。它们需要大量的计算资源、专用硬件设施以及可观的
阅读全文
posted @ 2025-02-16 12:15 deephub
阅读(83)
评论(0)
推荐(0)
上一页
1
···
21
22
23
24
25
26
27
28
29
···
139
下一页
公告