08 2025 档案

摘要:当你有一个由研究员、文案、数据分析师和质检员组成的团队时,如果没有合理的协调机制,再优秀的个体也可能产生冲突的结论、停滞的流程,或者解决错误的问题。AI智能体同样如此。 随着系统从单体模型向多智能体架构演进,编排成为核心技术能力。仅仅拥有强大的智能体远远不够,关键在于让它们有效协作。编排本质上是设计 阅读全文
posted @ 2025-08-31 20:16 deephub 阅读(16) 评论(0) 推荐(0)
摘要:最近好多论文开始将 神经架构搜索(NAS) 应用于大模型或 大型语言/视觉语言模型的设计中。 比如: LangVision-LoRA-NAS、Jet-Nemotron、PhaseNAS 等看来NAS又要有一波热度了,所以我来回顾一下NAS的基础技术。 深度学习的成功很大程度上依赖于神经网络架构的精心 阅读全文
posted @ 2025-08-30 21:59 deephub 阅读(34) 评论(0) 推荐(0)
摘要:在AI智能体架构设计中,一个核心争议正在分化整个技术社区:是构建复杂的多智能体协同系统,还是专注于提升单智能体的综合能力?基于当前大多数生产环境的实践经验,研究机构发现多智能体系统相比于具备充分上下文信息的单智能体,但往往表现出更高的脆弱性和被过度估计的效能。 在AI系统设计初期,将智能体数量与系统 阅读全文
posted @ 2025-08-29 21:42 deephub 阅读(17) 评论(0) 推荐(0)
摘要:大型语言模型的参数规模和复杂度持续增长,量化技术已成为优化推理效率的核心手段,这一点在消费级和企业级硬件部署中尤为关键。NVIDIA推出的NVFP4格式在众多量化方案中表现突出,其与Blackwell GPU架构的深度集成实现了显著的性能提升,同时保持了模型精度的稳定性。 本文将从技术角度深入分析N 阅读全文
posted @ 2025-08-28 21:19 deephub 阅读(37) 评论(0) 推荐(0)
摘要:R-Zero框架实现了大语言模型在无外部训练数据条件下的自主进化与推理能力提升。 当前的LLM改进方法高度依赖大规模人工标注数据,这种范式虽然取得了显著成果但面临两个根本性限制:人类生成数据的有限性将导致训练瓶颈,以及人工数据的智能上界制约了模型超越人类能力的可能性。 针对这一挑战,研究人员提出了一 阅读全文
posted @ 2025-08-27 20:42 deephub 阅读(29) 评论(0) 推荐(0)
摘要:匹配网络(Matching Networks)是基于度量的元学习方法,通过计算查询样本与支持集中各样本的相似性实现分类。核心机制依赖距离度量函数,余弦相似度因其对向量幅值不敏感的特性成为主流选择。特征提取阶段与相似度计算之间引入的注意力机制能够为特征向量的不同维度分配差异化权重,这种加权策略在处理图 阅读全文
posted @ 2025-08-25 22:11 deephub 阅读(10) 评论(0) 推荐(0)
摘要:分层检索增强生成系统(Hierarchical Retrieval-Augmented Generation, HiRAG)是一种先进的知识推理框架,专门用于处理复杂知识图中的多层次推理问题。在处理大规模科学文献(如天体物理学或广义相对论相关论文)时,传统的平面知识图往往难以建立远距离概念间的有效连 阅读全文
posted @ 2025-08-24 20:22 deephub 阅读(25) 评论(0) 推荐(0)
摘要:DeepSeek在发布其V3.1大语言模型时宣布该模型采用了"UE8M0 FP8 scale data format"进行训练,这一技术细节引发了业界对于新兴量化格式的广泛关注。UE8M0作为FP8格式家族中的一个特殊变体,我们今天来看看这个UE8M0到底是什么。 数值表示格式 我们先看看一般的量化 阅读全文
posted @ 2025-08-23 21:17 deephub 阅读(54) 评论(0) 推荐(0)
摘要:PyTorch 2.0+引入的torch.compile功能通过图捕获和优化技术显著提升模型执行性能。该功能将模型转换为计算图形式,并对其进行深度优化。 PyTorch采用eager execution作为默认执行模式,即每个操作在Python中逐行立即执行。这种模式提供了出色的灵活性和调试便利性, 阅读全文
posted @ 2025-08-22 20:00 deephub 阅读(16) 评论(0) 推荐(0)
摘要:近端策略优化(Proximal Policy Optimization, PPO)作为强化学习领域的重要算法,在众多实际应用中展现出卓越的性能。本文将详细介绍PPO算法的核心原理,并提供完整的PyTorch实现方案。 PPO算法在强化学习任务中具有显著优势:即使未经过精细的超参数调优,也能在Atar 阅读全文
posted @ 2025-08-21 21:53 deephub 阅读(38) 评论(0) 推荐(0)
摘要:文本编码技术是现代搜索系统、推荐算法、语义相似度分析和检索增强生成(RAG)系统的基础核心。在众多文本编码策略中,Cross-Encoder和Bi-Encoder两种架构因其独特的设计理念和应用特性而被广泛采用。本文将深入分析这两种编码架构的技术原理、数学基础、实现流程以及各自的优势与局限性,并探讨 阅读全文
posted @ 2025-08-20 20:46 deephub 阅读(28) 评论(0) 推荐(0)
摘要:在实际的机器学习应用中,数据集规模有限且类别分布不均衡是一个普遍存在的问题。以医学影像分析为例,正类样本通常仅占总样本的5%左右。基于此类数据训练的分类模型往往会倾向于预测多数类别,虽然能够达到95%的整体准确率,但在识别关键的少数类样本方面表现不佳。 这种现象会引发过拟合、预测偏差以及关键类别召回 阅读全文
posted @ 2025-08-19 19:13 deephub 阅读(18) 评论(0) 推荐(0)
摘要:现代RAG(Retrieval-Augmented Generation)和智能体架构在处理问答任务时,依赖于能够随时间动态更新的知识库,这类知识库通常包含财务报告、技术文档等持续变化的信息。为确保推理和规划过程的逻辑性与准确性,需要建立相应的时序管理机制。 针对规模不断增长且存在幻觉风险的动态知识 阅读全文
posted @ 2025-08-18 22:13 deephub 阅读(22) 评论(0) 推荐(0)
摘要:大型语言模型(Large Language Models, LLMs)如GPT-OSS、GPT-4、LLaMA和Mixtral的快速发展显著提升了人工智能的能力边界,但同时也带来了严峻的内存资源挑战。以1200亿参数的模型为例,在FP16精度下仅权重存储就需要约240GB的内存空间,这远超单个NVI 阅读全文
posted @ 2025-08-17 21:31 deephub 阅读(58) 评论(0) 推荐(0)
摘要:本文介绍使用四块Framework主板构建AI推理集群的完整过程,并对其在大语言模型推理任务中的性能表现进行了系统性评估。该集群基于AMD Ryzen AI Max+ 395处理器,采用mini ITX规格设计,可部署在10英寸标准机架中。 Jeff Geerling大佬还开发了名为Beowulf 阅读全文
posted @ 2025-08-16 20:34 deephub 阅读(48) 评论(0) 推荐(0)
摘要:本文深入分析ReasonRank,一个采用自动化数据合成框架和两阶段训练策略(监督微调+强化学习)的先进段落重排器,该系统在信息检索领域实现了突破性的推理能力,在BRIGHT等权威基准测试中超越了参数规模更大的现有模型。 信息检索技术在过去十年中经历了深刻变革。现代搜索引擎和人工智能助手已能够精准理 阅读全文
posted @ 2025-08-15 20:18 deephub 阅读(18) 评论(0) 推荐(0)
摘要:多元自适应回归样条(Multivariate Adaptive Regression Splines, MARS)是Jerome Friedman于1991年提出的一种非参数回归技术。该方法专门用于建模预测变量集合与目标变量之间的复杂非线性关系,无需预先确定具体的函数形式。本文将深入探讨MARS算法 阅读全文
posted @ 2025-08-14 20:35 deephub 阅读(15) 评论(0) 推荐(0)
摘要:在传统OCR技术日趋成熟的今天,一个仅有1.7B参数的视觉语言模型正在重新定义文档处理的技术边界。Dots.ocr的出现标志着OCR领域从传统多模块流水线向统一视觉语言建模的重要转变,其在多项基准测试中超越大参数模型的表现,预示着"小而精"可能比"大而全"更具实用价值。 这一技术突破的核心在于架构创 阅读全文
posted @ 2025-08-13 21:14 deephub 阅读(69) 评论(0) 推荐(0)
摘要:NumPy作为Python数值计算领域的基础框架,凭借其强大的N维数组结构和丰富的函数生态系统,成为科学家、工程师和数据分析师的核心工具。然而,随着计算需求的快速增长,特别是在机器学习和大规模科学模拟领域,NumPy基于CPU的执行模式以及缺乏内置自动微分功能的限制愈发明显。 JAX正是为了解决这些 阅读全文
posted @ 2025-08-12 20:47 deephub 阅读(21) 评论(0) 推荐(0)
摘要:在当前的AI应用开发生态中,LangChain已成为构建大型语言模型应用的主流框架。但是大多数开发者在实际项目中仅使用其基础功能,如简单的链式调用和提示工程,而对其高级组件的潜力挖掘不足。这种使用模式导致了显著的性能损失和功能局限性。 本文将系统分析LangChain框架中十个具有重要价值但使用率相 阅读全文
posted @ 2025-08-11 21:22 deephub 阅读(9) 评论(0) 推荐(0)
摘要:现代企业运营中,重复性任务的自动化处理已成为提升组织效率的核心需求。从基础数据录入到复杂工作流管理,企业持续寻求技术创新来降低人工成本、减少操作错误,并将人力资源重新配置到更具价值的战略性工作中。大型动作模型(Large Action Models, LAMs)作为人工智能领域的新兴技术架构,通过融 阅读全文
posted @ 2025-08-10 20:24 deephub 阅读(9) 评论(0) 推荐(0)
摘要:想象一下:只需四小时,一位初级开发者就能构建出同时处理事实核查、摘要生成、情感分析和多数据源交叉引用的AI研究助手。这在六个月前需要高级工程师团队数周的开发时间,如今借助LangGraph多智能体框架已经成为现实。 传统AI应用依赖单一大型模型处理所有任务,就像让一个人同时担任研究员、作家、事实核查 阅读全文
posted @ 2025-08-09 18:47 deephub 阅读(41) 评论(0) 推荐(0)
摘要:主成分分析(Principal Component Analysis, PCA)作为一种经典的无监督降维技术,在保留数据主要信息的同时能够有效压缩数据维度。由于PCA对数据变异性的高度敏感性,该方法在多变量异常值检测领域展现出独特的优势。 当分析任务需要建立早期预警系统以识别异常状态,并且要求结果具 阅读全文
posted @ 2025-08-08 20:21 deephub 阅读(20) 评论(0) 推荐(0)
摘要:可验证奖励强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)是一种基于参考标准的训练范式,其核心在于通过基于规则的函数或生成式LLM评判器来提供奖励信号。在RLVR训练过程中,奖励模型接收问题q、策略模型生成的响应r以及参考答案a∗作 阅读全文
posted @ 2025-08-07 20:47 deephub 阅读(14) 评论(0) 推荐(0)
摘要:在构建基于知识图谱的检索增强生成(RAG)系统或智能代理时,从非结构化数据中准确提取节点和关系是一项核心挑战。特别是在使用经过量化处理的小型本地大语言模型(LLM)时,这一问题尤为突出,往往导致整体系统性能显著下降。LangChain 提取框架的主要限制在于其对严格 JSON 解析的依赖,即使采用大 阅读全文
posted @ 2025-08-05 19:46 deephub 阅读(22) 评论(0) 推荐(0)
摘要:本文深入解析PyTorch中TorchDynamo的核心架构和实现机制,通过PyTorch源码分析和关键文件导览,为开发者提供在Dynamo基础上设计扩展功能或新特性的技术指南。 TorchDynamo是PyTorch生态系统中的Python级即时编译器(JIT Compiler),其核心功能是通过 阅读全文
posted @ 2025-08-04 19:40 deephub 阅读(20) 评论(0) 推荐(0)
摘要:当前人工智能模型在处理长序列任务时面临着根本性的计算瓶颈。无论是分析完整的法律文档、处理大型代码仓库,还是进行长篇对话,现有模型都受到Transformer架构中注意力机制的限制——其计算复杂度随序列长度呈二次增长( O(N²) ),导致计算和内存需求超出可承受范围。 简单的O(N²)注意力机制,为 阅读全文
posted @ 2025-08-03 19:39 deephub 阅读(20) 评论(0) 推荐(0)
摘要:AI Agent 的评估需要全面考虑其完整的生命周期,从开发阶段到生产部署。评估过程应当涵盖多个关键维度:最终输出的事实准确性和实用价值、推理过程中工具选择的合理性和路径效率、结构化响应生成能力(如 JSON 格式)、多轮对话的上下文维持能力,以及在真实用户流量下的持续性能表现和错误监控能力。 为了 阅读全文
posted @ 2025-08-02 20:10 deephub 阅读(37) 评论(0) 推荐(0)
摘要:这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破 大规模强化学习的稳定性挑战 强化学习(Reinforcement Learning, RL)已成为构建先进大语言模型(Large Language Models, LLMs)的核心技术环节。通过 阅读全文
posted @ 2025-08-01 18:37 deephub 阅读(84) 评论(0) 推荐(0)