deephub

2025年2月14日

DeepSeek 背后的技术：GRPO，基于群组采样的高效大语言模型强化学习训练方法详解

摘要：强化学习（Reinforcement Learning, RL）已成为提升大型语言模型（Large Language Models, LLMs）推理能力的重要技术手段，特别是在需要复杂推理的任务中。DeepSeek 团队在 DeepSeek-Math [2] 和 DeepSeek-R1 [3] 模型阅读全文

posted @ 2025-02-14 10:18 deephub 阅读(513) 评论(0) 推荐(0)

2025年2月13日

基于结构化状态空间对偶性的贝叶斯注意力机制设计与实现

摘要：当前的大型语言模型在处理长序列文本时面临挑战。主要的瓶颈在于注意力机制，它将文本处理为单词（或 tokens）序列。注意力计算的复杂度随序列长度 T 呈平方增长，导致处理长文本的成本显著增加。为了降低计算成本，研究人员积极探索注意力的替代方案，包括递归模型（如 Mamba [1] 和 xLSTM [ 阅读全文

posted @ 2025-02-13 12:00 deephub 阅读(49) 评论(0) 推荐(0)

2025年2月12日

近端策略优化(PPO)算法的理论基础与PyTorch代码详解

摘要：近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法，在深度强化学习领域获得了广泛应用。特别是在大语言模型(LLM)的人类反馈强化学习(RLHF)过程中，PPO扮演着核心角色。本文将深入探讨PPO的基本原理和实现细节。 PPO属于在线策略梯阅读全文

posted @ 2025-02-12 15:17 deephub 阅读(151) 评论(0) 推荐(0)

2025年2月11日

CoAT: 基于蒙特卡洛树搜索和关联记忆的大模型推理能力优化框架

摘要：研究者提出了一种新的关联思维链(Chain-of-Associated-Thoughts, CoAT)方法，该方法通过整合蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)和关联记忆机制来提升大语言模型(LLMs)的推理能力。区别于传统的单步推理方法，CoAT致力于增强LL 阅读全文

posted @ 2025-02-11 12:56 deephub 阅读(64) 评论(0) 推荐(0)

2025年2月10日

用傅里叶变换解码时间序列：从频域视角解析季节性模式

摘要：在众多时间序列模型中，SARIMA（seasonal autoregressive integrated moving average，季节性自回归积分滑动平均模型）能够有效处理时间序列中的季节性成分。但是在实际应用中，如何准确识别和提取这些季节性模式一直是一个挑战。传统上，识别季节性模式往往依赖阅读全文

posted @ 2025-02-10 09:57 deephub 阅读(41) 评论(0) 推荐(0)

2025年2月9日

PyTorch Profiler 性能优化示例：定位 TorchMetrics 收集瓶颈，提高 GPU 利用率

摘要：指标收集是每个机器学习项目不可或缺的组成部分，它使我们能够跟踪模型性能并监控训练进度。理想情况下，我们希望在不给训练过程带来额外开销的前提下收集和计算指标。与训练循环的其他部分一样，低效的指标计算可能会引入不必要的开销，延长训练步骤的耗时，并增加训练成本。本文是将聚焦于指标收集，演示指标收集的一种阅读全文

posted @ 2025-02-09 11:28 deephub 阅读(47) 评论(0) 推荐(0)

2025年2月8日

DeepSeek × 时间序列：DeepSeek-TS，基于状态空间增强MLA与GRPO的时序预测新框架

摘要：本文介绍 DeepSeek-TS，该框架受到 DeepSeek 中高效的多头潜在注意力（MLA）和群组相对策略优化（GRPO）技术的启发，并将其应用于多产品时间序列预测。这个的方法扩展了 MLA，提出了 MLA-Mamba。MLA-Mamba 允许潜在特征通过具有非线性激活的状态空间模型动态演变，阅读全文

posted @ 2025-02-08 10:40 deephub 阅读(221) 评论(0) 推荐(0)

2025年2月7日

SRMT：一种融合共享记忆与稀疏注意力的多智能体强化学习框架

摘要：在人工智能(AI)和强化学习(RL)领域的发展进程中，长期记忆维持和决策优化一直是核心技术难点。传统强化学习模型在经验回溯方面存在局限性，这显著制约了其在复杂动态环境中的应用效果。自反射记忆Transformer (SRMT)作为一种新型记忆增强型transformer架构，专注于提升基于AI的决策阅读全文

posted @ 2025-02-07 10:08 deephub 阅读(96) 评论(0) 推荐(0)

2025年2月6日

EvalPlanner：基于“计划-执行”双阶段的大语言模型评估框架

摘要：大语言模型(LLM)评估系统在生成思维链(Chain-of-Thought, CoT)序列时，需要系统地捕捉评估过程中的推理步骤。但是由于缺乏人工标注的CoT训练数据，以及预定义评估提示在复杂任务中的局限性，构建高质量的LLM评估模型面临重大挑战。另外手动调整评估指令的方法在面对多样化和复杂任务时表阅读全文

posted @ 2025-02-06 10:41 deephub 阅读(47) 评论(0) 推荐(0)

2025年2月5日

DeepSeek技术报告解析：为什么DeepSeek-R1 可以用低成本训练出高效的模型

摘要： DeepSeek-R1 通过创新的训练策略实现了显著的成本降低，同时保持了卓越的模型性能。本文将详细分析其核心训练方法。成本优势对比在推理成本方面，DeepSeek-R1 展现出显著优势：输入 tokens : $0.55/百万 tokens 输出 tokens : $2.19/百万 toke 阅读全文

posted @ 2025-02-05 09:55 deephub 阅读(361) 评论(0) 推荐(0)

overfit深度学习

公告