摘要: 大型语言模型 (Large Language Models, LLMs) 的发展日新月异。从最初的简单对话系统,到如今能够执行文本生成、语言翻译和代码编写等复杂任务的先进模型,LLM 技术实现了跨越式的进步。 然而这些模型的规模和计算需求也呈指数级增长。它们需要大量的计算资源、专用硬件设施以及可观的 阅读全文
posted @ 2025-02-16 12:15 deephub 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 本文系统性地阐述了大型语言模型(Large Language Models, LLMs)中的解码策略技术原理及其实践应用。通过深入分析各类解码算法的工作机制、性能特征和优化方法,为研究者和工程师提供了全面的技术参考。主要涵盖贪婪解码、束搜索、采样技术等核心解码方法,以及温度参数、惩罚机制等关键优化手 阅读全文
posted @ 2025-02-15 10:58 deephub 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 强化学习(Reinforcement Learning, RL)已成为提升大型语言模型(Large Language Models, LLMs)推理能力的重要技术手段,特别是在需要复杂推理的任务中。DeepSeek 团队在 DeepSeek-Math [2] 和 DeepSeek-R1 [3] 模型 阅读全文
posted @ 2025-02-14 10:18 deephub 阅读(17) 评论(0) 推荐(0) 编辑
摘要: 当前的大型语言模型在处理长序列文本时面临挑战。主要的瓶颈在于注意力机制,它将文本处理为单词(或 tokens)序列。注意力计算的复杂度随序列长度 T 呈平方增长,导致处理长文本的成本显著增加。为了降低计算成本,研究人员积极探索注意力的替代方案,包括递归模型(如 Mamba [1] 和 xLSTM [ 阅读全文
posted @ 2025-02-13 12:00 deephub 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法,在深度强化学习领域获得了广泛应用。特别是在大语言模型(LLM)的人类反馈强化学习(RLHF)过程中,PPO扮演着核心角色。本文将深入探讨PPO的基本原理和实现细节。 PPO属于在线策略梯 阅读全文
posted @ 2025-02-12 15:17 deephub 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 研究者提出了一种新的关联思维链(Chain-of-Associated-Thoughts, CoAT)方法,该方法通过整合蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)和关联记忆机制来提升大语言模型(LLMs)的推理能力。区别于传统的单步推理方法,CoAT致力于增强LL 阅读全文
posted @ 2025-02-11 12:56 deephub 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 在众多时间序列模型中,SARIMA(seasonal autoregressive integrated moving average,季节性自回归积分滑动平均模型)能够有效处理时间序列中的季节性成分。但是在实际应用中,如何准确识别和提取这些季节性模式一直是一个挑战。 传统上,识别季节性模式往往依赖 阅读全文
posted @ 2025-02-10 09:57 deephub 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 指标收集是每个机器学习项目不可或缺的组成部分,它使我们能够跟踪模型性能并监控训练进度。理想情况下,我们希望在不给训练过程带来额外开销的前提下收集和计算指标。与训练循环的其他部分一样,低效的指标计算可能会引入不必要的开销,延长训练步骤的耗时,并增加训练成本。 本文是将聚焦于指标收集,演示指标收集的一种 阅读全文
posted @ 2025-02-09 11:28 deephub 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 本文介绍 DeepSeek-TS,该框架受到 DeepSeek 中高效的多头潜在注意力(MLA)和群组相对策略优化(GRPO)技术的启发,并将其应用于多产品时间序列预测。 这个的方法扩展了 MLA,提出了 MLA-Mamba。MLA-Mamba 允许潜在特征通过具有非线性激活的状态空间模型动态演变, 阅读全文
posted @ 2025-02-08 10:40 deephub 阅读(29) 评论(0) 推荐(0) 编辑
摘要: 在人工智能(AI)和强化学习(RL)领域的发展进程中,长期记忆维持和决策优化一直是核心技术难点。传统强化学习模型在经验回溯方面存在局限性,这显著制约了其在复杂动态环境中的应用效果。自反射记忆Transformer (SRMT)作为一种新型记忆增强型transformer架构,专注于提升基于AI的决策 阅读全文
posted @ 2025-02-07 10:08 deephub 阅读(16) 评论(0) 推荐(0) 编辑