上一页 1 ··· 34 35 36 37 38 39 40 41 42 ··· 155 下一页
摘要: 预测不确定性量化在数据驱动决策过程中具有关键作用。无论是评估医疗干预的风险概率还是预测金融市场的价格波动范围,我们常需要构建预测区间——即以特定置信度包含目标真值的概率区间。 **分位数回归(Quantile Regression, QR)**作为一种传统统计方法,长期以来被用于预测此类区间。与常规 阅读全文
posted @ 2025-03-25 10:17 deephub 阅读(220) 评论(0) 推荐(0)
摘要: 扩散模型已成为现代文本到图像 (T2I) 生成技术的核心,能够生成高质量图像,但其迭代式推理过程导致生成速度缓慢。多数模型通常需要 20–50 个去噪步骤,这严重制约了其在实时应用中的部署。 现有的蒸馏技术旨在加速扩散模型的采样过程,然而,这些方法往往会引入稳定性问题,在极低步数下出现质量下降,并可 阅读全文
posted @ 2025-03-24 10:13 deephub 阅读(95) 评论(0) 推荐(0)
摘要: 广义优势估计(Generalized Advantage Estimation, GAE)由Schulman等人在2016年的论文中提出,是近端策略优化(PPO)算法的重要基础理论,也是促使PPO成为高效强化学习算法的核心因素之一。 GAE的理论基础建立在资格迹(eligibility traces 阅读全文
posted @ 2025-03-23 11:00 deephub 阅读(345) 评论(0) 推荐(0)
摘要: 自VQGAN和Latent Diffusion Models等视觉生成框架问世以来,先进的图像生成系统通常采用两阶段架构:首先将视觉数据Token化或压缩至低维潜在空间,随后学习生成模型。传统Token化器训练遵循标准范式,通过MSE、感知损失和对抗性损失的组合约束来实现图像压缩与重建。虽然扩散自编 阅读全文
posted @ 2025-03-22 10:02 deephub 阅读(53) 评论(0) 推荐(0)
摘要: 这个研究提出了一种新型强化学习(RL)框架SEARCH-R1,该框架使大型语言模型(LLM)能够实现多轮、交错的搜索与推理能力集成。不同于传统的检索增强生成(RAG)或工具使用方法,SEARCH-R1通过强化学习训练LLM自主生成查询语句,并优化其基于搜索引擎结果的推理过程。 该模型的核心创新在于完 阅读全文
posted @ 2025-03-21 10:15 deephub 阅读(227) 评论(0) 推荐(0)
摘要: 生成模型已成为人工智能领域的关键突破,赋予机器创建高度逼真的图像、音频和文本的能力。在众多生成技术中,扩散模型和Flow Matching尤为引人注目。这两种方法虽然都致力于在噪声与结构化数据之间建立转换,但其基础原理存在本质区别。本文将系统地比较这两种先进技术,深入探讨其数学原理、实际应用及理论解 阅读全文
posted @ 2025-03-20 10:14 deephub 阅读(373) 评论(0) 推荐(0)
摘要: 在深度学习的背景下,NVIDIA的CUDA与AMD的ROCm框架缺乏有效的互操作性,导致基础设施资源利用率显著降低。随着模型规模不断扩大而预算约束日益严格,2-3年更换一次GPU的传统方式已不具可持续性。但是Pytorch的最近几次的更新可以有效利用异构计算集群,实现对所有可用GPU资源的充分调度, 阅读全文
posted @ 2025-03-19 11:07 deephub 阅读(48) 评论(0) 推荐(0)
摘要: 文探讨GoT框架如何通过语义-空间思维链方法提升图像生成的精确性与一致性 计算机视觉领域正经历一次技术革新:一种不仅能将文本转换为图像,还能在生成过程中实施结构化推理的系统。这一系统即为GoT(Generative Thoughts of Thinking,生成式思维链)框架——一种将显式推理机制引 阅读全文
posted @ 2025-03-18 09:54 deephub 阅读(96) 评论(0) 推荐(0)
摘要: 传统检索增强生成(RAG)架构因依赖静态检索机制,在处理需要顺序信息搜索的复杂问题时存在效能限制。尽管基于代理的推理与搜索方法提供了更具适应性的解决方案,但现有方法大多过度依赖提示工程技术。 针对上述挑战,本文介绍了RAG-Gym框架,这是一种通过在搜索过程中实施细粒度过程监督来增强信息搜索代理的统 阅读全文
posted @ 2025-03-17 10:06 deephub 阅读(96) 评论(0) 推荐(0)
摘要: 原始"Attention Is All You Need"论文中提出的标准Transformer架构最初设计用于处理离散输入和输出序列标记(token),但将其应用于时间序列分析时,需要对模型结构进行适当调整以适应连续数据特性。本文详细阐述了使原始Transformer架构能够高效处理连续值时间序列 阅读全文
posted @ 2025-03-16 10:29 deephub 阅读(44) 评论(0) 推荐(0)
上一页 1 ··· 34 35 36 37 38 39 40 41 42 ··· 155 下一页