上一页 1 2 3 4 5 6 7 8 ··· 118 下一页
摘要: DeepSeek R1 的完整训练流程核心在于,在其基础模型 DeepSeek V3 之上,运用了多种强化学习策略。本文将从一个可本地运行的基础模型起步,并参照其技术报告,完全从零开始构建 DeepSeek R1,理论结合实践,逐步深入每个训练环节。通过可视化方式,由浅入深地解析 DeepSeek 阅读全文
posted @ 2025-02-24 11:25 deephub 阅读(44) 评论(0) 推荐(0) 编辑
摘要: SmolLM2 采用创新的四阶段训练策略,在仅使用 1.7B 参数的情况下,成功挑战了大型语言模型的性能边界: 在 MMLU-Pro 等测试中超越 Qwen2.5-1.5B 近 6 个百分点 数学推理能力(GSM8K、MATH)优于 Llama3.2-1B 在代码生成和文本重写任务中展现出色表现 支 阅读全文
posted @ 2025-02-23 10:38 deephub 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 本文介绍了一种名为 Diffusion-DPO 的方法,该方法改编自最近提出的直接偏好优化 (DPO)。DPO 作为 RLHF 的简化替代方案,通过分类目标直接优化策略,以更好地满足人类偏好。 诸如 GPT-4 和 Llama 2 等高性能大型语言模型 (LLM) 的训练通常分为两个阶段: http 阅读全文
posted @ 2025-02-22 11:34 deephub 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 随着大型语言模型(LLM)规模和复杂性的持续增长,高效推理的重要性日益凸显。KV(键值)缓存与分页注意力是两种优化LLM推理的关键技术。本文将深入剖析这些概念,阐述其重要性,并探讨它们在仅解码器(decoder-only)模型中的工作原理。 https://avoid.overfit.cn/post 阅读全文
posted @ 2025-02-21 17:50 deephub 阅读(13) 评论(0) 推荐(0) 编辑
摘要: Transformer 架构因其强大的通用性而备受瞩目,它能够处理文本、图像或任何类型的数据及其组合。其核心的“Attention”机制通过计算序列中每个 token 之间的自相似性,从而实现对各种类型数据的总结和生成。在 Vision Transformer 中,图像首先被分解为正方形图像块,然后 阅读全文
posted @ 2025-02-20 10:58 deephub 阅读(28) 评论(0) 推荐(0) 编辑
摘要: STAR (Spatial-Temporal Augmentation with Text-to-Video Models) 提出了一种创新的视频超分辨率解决方案,针对现有模型中存在的过度平滑和时间一致性不足等问题进行了系统性改进。该方法基于文本到视频(T2V)扩散模型架构,通过优化时序建模能力,有 阅读全文
posted @ 2025-02-19 10:24 deephub 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 本文将介绍 Google DeepMind 提出的 Matryoshka 量化技术,该技术通过从单个大型语言模型 (LLM) 实现多精度模型部署,从而革新深度学习。我们将深入研究这项创新技术如何提高 LLM 的效率和准确性。 随着深度学习模型在规模和复杂度上持续增长,效率和灵活性变得至关重要。量化作 阅读全文
posted @ 2025-02-18 10:44 deephub 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 作为早期时间序列基础模型之一,Salesforce 开发的 MOIRAI 凭借其出色的基准测试性能以及开源的大规模预训练数据集 LOTSA 在业界获得了广泛关注。 本文在此前对 MOIRAI 架构原理的深入分析基础上,重点探讨其最新升级版本 MOIRAI-MOE。该版本通过引入混合专家模型(Mixt 阅读全文
posted @ 2025-02-17 10:58 deephub 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 大型语言模型 (Large Language Models, LLMs) 的发展日新月异。从最初的简单对话系统,到如今能够执行文本生成、语言翻译和代码编写等复杂任务的先进模型,LLM 技术实现了跨越式的进步。 然而这些模型的规模和计算需求也呈指数级增长。它们需要大量的计算资源、专用硬件设施以及可观的 阅读全文
posted @ 2025-02-16 12:15 deephub 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 本文系统性地阐述了大型语言模型(Large Language Models, LLMs)中的解码策略技术原理及其实践应用。通过深入分析各类解码算法的工作机制、性能特征和优化方法,为研究者和工程师提供了全面的技术参考。主要涵盖贪婪解码、束搜索、采样技术等核心解码方法,以及温度参数、惩罚机制等关键优化手 阅读全文
posted @ 2025-02-15 10:58 deephub 阅读(15) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 118 下一页