会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
38
39
40
41
42
43
44
45
46
···
155
下一页
2025年2月12日
近端策略优化(PPO)算法的理论基础与PyTorch代码详解
摘要: 近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法,在深度强化学习领域获得了广泛应用。特别是在大语言模型(LLM)的人类反馈强化学习(RLHF)过程中,PPO扮演着核心角色。本文将深入探讨PPO的基本原理和实现细节。 PPO属于在线策略梯
阅读全文
posted @ 2025-02-12 15:17 deephub
阅读(195)
评论(0)
推荐(0)
2025年2月11日
CoAT: 基于蒙特卡洛树搜索和关联记忆的大模型推理能力优化框架
摘要: 研究者提出了一种新的关联思维链(Chain-of-Associated-Thoughts, CoAT)方法,该方法通过整合蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)和关联记忆机制来提升大语言模型(LLMs)的推理能力。区别于传统的单步推理方法,CoAT致力于增强LL
阅读全文
posted @ 2025-02-11 12:56 deephub
阅读(85)
评论(0)
推荐(0)
2025年2月10日
用傅里叶变换解码时间序列:从频域视角解析季节性模式
摘要: 在众多时间序列模型中,SARIMA(seasonal autoregressive integrated moving average,季节性自回归积分滑动平均模型)能够有效处理时间序列中的季节性成分。但是在实际应用中,如何准确识别和提取这些季节性模式一直是一个挑战。 传统上,识别季节性模式往往依赖
阅读全文
posted @ 2025-02-10 09:57 deephub
阅读(58)
评论(0)
推荐(0)
2025年2月9日
PyTorch Profiler 性能优化示例:定位 TorchMetrics 收集瓶颈,提高 GPU 利用率
摘要: 指标收集是每个机器学习项目不可或缺的组成部分,它使我们能够跟踪模型性能并监控训练进度。理想情况下,我们希望在不给训练过程带来额外开销的前提下收集和计算指标。与训练循环的其他部分一样,低效的指标计算可能会引入不必要的开销,延长训练步骤的耗时,并增加训练成本。 本文是将聚焦于指标收集,演示指标收集的一种
阅读全文
posted @ 2025-02-09 11:28 deephub
阅读(69)
评论(0)
推荐(0)
2025年2月8日
DeepSeek × 时间序列 :DeepSeek-TS,基于状态空间增强MLA与GRPO的时序预测新框架
摘要: 本文介绍 DeepSeek-TS,该框架受到 DeepSeek 中高效的多头潜在注意力(MLA)和群组相对策略优化(GRPO)技术的启发,并将其应用于多产品时间序列预测。 这个的方法扩展了 MLA,提出了 MLA-Mamba。MLA-Mamba 允许潜在特征通过具有非线性激活的状态空间模型动态演变,
阅读全文
posted @ 2025-02-08 10:40 deephub
阅读(250)
评论(0)
推荐(0)
2025年2月7日
SRMT:一种融合共享记忆与稀疏注意力的多智能体强化学习框架
摘要: 在人工智能(AI)和强化学习(RL)领域的发展进程中,长期记忆维持和决策优化一直是核心技术难点。传统强化学习模型在经验回溯方面存在局限性,这显著制约了其在复杂动态环境中的应用效果。自反射记忆Transformer (SRMT)作为一种新型记忆增强型transformer架构,专注于提升基于AI的决策
阅读全文
posted @ 2025-02-07 10:08 deephub
阅读(122)
评论(0)
推荐(0)
2025年2月6日
EvalPlanner:基于“计划-执行”双阶段的大语言模型评估框架
摘要: 大语言模型(LLM)评估系统在生成思维链(Chain-of-Thought, CoT)序列时,需要系统地捕捉评估过程中的推理步骤。但是由于缺乏人工标注的CoT训练数据,以及预定义评估提示在复杂任务中的局限性,构建高质量的LLM评估模型面临重大挑战。另外手动调整评估指令的方法在面对多样化和复杂任务时表
阅读全文
posted @ 2025-02-06 10:41 deephub
阅读(68)
评论(0)
推荐(0)
2025年2月5日
DeepSeek技术报告解析:为什么DeepSeek-R1 可以用低成本训练出高效的模型
摘要: DeepSeek-R1 通过创新的训练策略实现了显著的成本降低,同时保持了卓越的模型性能。本文将详细分析其核心训练方法。 成本优势对比 在推理成本方面,DeepSeek-R1 展现出显著优势: 输入 tokens : $0.55/百万 tokens 输出 tokens : $2.19/百万 toke
阅读全文
posted @ 2025-02-05 09:55 deephub
阅读(397)
评论(0)
推荐(0)
2025年2月4日
数据降维技术研究:Karhunen-Loève展开与快速傅里叶变换的理论基础及应用
摘要: 在现代科学计算和数据分析领域,数据降维与压缩技术对于处理高维数据具有重要意义。本文主要探讨两种基础而重要的数学工具:Karhunen-Loève展开(KLE)和快速傅里叶变换(FFT)。通过分析这两种方法的理论基础和应用特点,阐述它们在数据降维中的优势和适用场景。 Karhunen-Loève展开的
阅读全文
posted @ 2025-02-04 20:47 deephub
阅读(93)
评论(0)
推荐(0)
2025年2月3日
PyTorch生态系统中的连续深度学习:使用Torchdyn实现连续时间神经网络
摘要: 神经常微分方程(Neural ODEs)是深度学习领域的创新性模型架构,它将神经网络的离散变换扩展为连续时间动力系统。与传统神经网络将层表示为离散变换不同,Neural ODEs将变换过程视为深度(或时间)的连续函数。这种方法为机器学习开创了新的研究方向,尤其在生成模型、时间序列分析和物理信息学习等
阅读全文
posted @ 2025-02-03 09:52 deephub
阅读(76)
评论(0)
推荐(0)
上一页
1
···
38
39
40
41
42
43
44
45
46
···
155
下一页
公告