上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 139 下一页
摘要: 最近好多论文开始将 神经架构搜索(NAS) 应用于大模型或 大型语言/视觉语言模型的设计中。 比如: LangVision-LoRA-NAS、Jet-Nemotron、PhaseNAS 等看来NAS又要有一波热度了,所以我来回顾一下NAS的基础技术。 深度学习的成功很大程度上依赖于神经网络架构的精心 阅读全文
posted @ 2025-08-30 21:59 deephub 阅读(32) 评论(0) 推荐(0)
摘要: 在AI智能体架构设计中,一个核心争议正在分化整个技术社区:是构建复杂的多智能体协同系统,还是专注于提升单智能体的综合能力?基于当前大多数生产环境的实践经验,研究机构发现多智能体系统相比于具备充分上下文信息的单智能体,但往往表现出更高的脆弱性和被过度估计的效能。 在AI系统设计初期,将智能体数量与系统 阅读全文
posted @ 2025-08-29 21:42 deephub 阅读(17) 评论(0) 推荐(0)
摘要: 大型语言模型的参数规模和复杂度持续增长,量化技术已成为优化推理效率的核心手段,这一点在消费级和企业级硬件部署中尤为关键。NVIDIA推出的NVFP4格式在众多量化方案中表现突出,其与Blackwell GPU架构的深度集成实现了显著的性能提升,同时保持了模型精度的稳定性。 本文将从技术角度深入分析N 阅读全文
posted @ 2025-08-28 21:19 deephub 阅读(37) 评论(0) 推荐(0)
摘要: R-Zero框架实现了大语言模型在无外部训练数据条件下的自主进化与推理能力提升。 当前的LLM改进方法高度依赖大规模人工标注数据,这种范式虽然取得了显著成果但面临两个根本性限制:人类生成数据的有限性将导致训练瓶颈,以及人工数据的智能上界制约了模型超越人类能力的可能性。 针对这一挑战,研究人员提出了一 阅读全文
posted @ 2025-08-27 20:42 deephub 阅读(29) 评论(0) 推荐(0)
摘要: 匹配网络(Matching Networks)是基于度量的元学习方法,通过计算查询样本与支持集中各样本的相似性实现分类。核心机制依赖距离度量函数,余弦相似度因其对向量幅值不敏感的特性成为主流选择。特征提取阶段与相似度计算之间引入的注意力机制能够为特征向量的不同维度分配差异化权重,这种加权策略在处理图 阅读全文
posted @ 2025-08-25 22:11 deephub 阅读(10) 评论(0) 推荐(0)
摘要: 分层检索增强生成系统(Hierarchical Retrieval-Augmented Generation, HiRAG)是一种先进的知识推理框架,专门用于处理复杂知识图中的多层次推理问题。在处理大规模科学文献(如天体物理学或广义相对论相关论文)时,传统的平面知识图往往难以建立远距离概念间的有效连 阅读全文
posted @ 2025-08-24 20:22 deephub 阅读(25) 评论(0) 推荐(0)
摘要: DeepSeek在发布其V3.1大语言模型时宣布该模型采用了"UE8M0 FP8 scale data format"进行训练,这一技术细节引发了业界对于新兴量化格式的广泛关注。UE8M0作为FP8格式家族中的一个特殊变体,我们今天来看看这个UE8M0到底是什么。 数值表示格式 我们先看看一般的量化 阅读全文
posted @ 2025-08-23 21:17 deephub 阅读(53) 评论(0) 推荐(0)
摘要: PyTorch 2.0+引入的torch.compile功能通过图捕获和优化技术显著提升模型执行性能。该功能将模型转换为计算图形式,并对其进行深度优化。 PyTorch采用eager execution作为默认执行模式,即每个操作在Python中逐行立即执行。这种模式提供了出色的灵活性和调试便利性, 阅读全文
posted @ 2025-08-22 20:00 deephub 阅读(16) 评论(0) 推荐(0)
摘要: 近端策略优化(Proximal Policy Optimization, PPO)作为强化学习领域的重要算法,在众多实际应用中展现出卓越的性能。本文将详细介绍PPO算法的核心原理,并提供完整的PyTorch实现方案。 PPO算法在强化学习任务中具有显著优势:即使未经过精细的超参数调优,也能在Atar 阅读全文
posted @ 2025-08-21 21:53 deephub 阅读(38) 评论(0) 推荐(0)
摘要: 文本编码技术是现代搜索系统、推荐算法、语义相似度分析和检索增强生成(RAG)系统的基础核心。在众多文本编码策略中,Cross-Encoder和Bi-Encoder两种架构因其独特的设计理念和应用特性而被广泛采用。本文将深入分析这两种编码架构的技术原理、数学基础、实现流程以及各自的优势与局限性,并探讨 阅读全文
posted @ 2025-08-20 20:46 deephub 阅读(27) 评论(0) 推荐(0)
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 139 下一页