上一页 1 2 3 4 5 6 7 8 9 ··· 117 下一页
摘要: 神经常微分方程(Neural ODEs)是深度学习领域的创新性模型架构,它将神经网络的离散变换扩展为连续时间动力系统。与传统神经网络将层表示为离散变换不同,Neural ODEs将变换过程视为深度(或时间)的连续函数。这种方法为机器学习开创了新的研究方向,尤其在生成模型、时间序列分析和物理信息学习等 阅读全文
posted @ 2025-02-03 09:52 deephub 阅读(16) 评论(0) 推荐(0) 编辑
摘要: DeepSeekMoE是一种创新的大规模语言模型架构,通过整合专家混合系统(Mixture of Experts, MoE)、改进的注意力机制和优化的归一化策略,在模型效率与计算能力之间实现了新的平衡。 DeepSeekMoE架构融合了专家混合系统(MoE)、多头潜在注意力机制(Multi-Head 阅读全文
posted @ 2025-02-02 10:29 deephub 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 机器学习的核心目标是在未见过的新数据上实现准确预测。 当模型在训练数据上表现良好,但在测试数据上表现不佳时,即出现“过拟合”。这意味着模型从训练数据中学习了过多的噪声模式,从而丧失了在新数据上的泛化能力。 那么,过拟合的根本原因是什么?具体来说, 哪些特征(数据集的列)阻碍了模型在新数据上的有效泛化 阅读全文
posted @ 2025-02-01 10:37 deephub 阅读(16) 评论(0) 推荐(0) 编辑
摘要: 在Python开发领域,GIL(Global Interpreter Lock)一直是一个广受关注的技术话题。在3.13已经默认将GIL去除,在详细介绍3.13的更亲前,我们先要留了解GIL的技术本质、其对Python程序性能的影响。本文将主要基于CPython(用C语言实现的Python解释器,也 阅读全文
posted @ 2025-01-31 10:46 deephub 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 铰链损失(Hinge Loss)是支持向量机(Support Vector Machine, SVM)中最为核心的损失函数之一。该损失函数不仅在SVM中发挥着关键作用,也被广泛应用于其他机器学习模型的训练过程中。从数学角度来看,铰链损失函数提供了一种优雅的方式来量化分类器的预测性能。 数学表达式 铰 阅读全文
posted @ 2025-01-30 14:03 deephub 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 联邦学习(Federated Learning,FL)作为机器学习领域的关键技术范式,实现了在保障数据隐私的前提下进行分布式模型训练。 为推进联邦学习模型的研发与部署,业界开发了多种开源及商业框架工具。这些基础库为联邦学习的技术实践提供了核心支持,包括模型训练、数据安全保护、通信协议以及结果聚合等关 阅读全文
posted @ 2025-01-29 09:57 deephub 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 在时间序列分析领域中,存在多种可能影响分析结果有效性的技术挑战。其中,数据泄露、前瞻性偏差和因果关系违反是最为常见且具有显著影响的问题。 数据泄露:隐蔽的系统性错误 数据泄露是指在预测时理论上无法获取的信息,通过某种方式影响了模型的训练过程。在时间序列分析中,由于数据的时序特性,这种问题尤为隐蔽。数 阅读全文
posted @ 2025-01-28 09:50 deephub 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 知识蒸馏是一种通过性能与模型规模的权衡来实现模型压缩的技术。其核心思想是将较大规模模型(称为教师模型)中的知识迁移到规模较小的模型(称为学生模型)中。本文将深入探讨知识迁移的具体实现机制。 知识蒸馏原理 知识蒸馏的核心目标是实现从教师模型到学生模型的知识迁移。在实际应用中,无论是大规模语言模型(LL 阅读全文
posted @ 2025-01-27 09:46 deephub 阅读(99) 评论(0) 推荐(0) 编辑
摘要: 在性能要求较高的应用场景中,Python常因其执行速度不及C、C++或Rust等编译型语言而受到质疑。然而通过合理运用Python标准库提供的优化特性,我们可以显著提升Python代码的执行效率。本文将详细介绍几种实用的性能优化技术。 https://avoid.overfit.cn/post/d5 阅读全文
posted @ 2025-01-26 09:39 deephub 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 多LLM摘要框架在每轮对话中包含两个基本步骤:生成和评估。这些步骤在多LLM分散式摘要和集中式摘要中有所不同。在两种策略中,k个不同的LLM都会生成多样化的文本摘要。然而在评估阶段,多LLM集中式摘要方法使用单个LLM来评估摘要并选择最佳摘要,而分散式多LLM摘要则使用k个LLM进行评估。 论文提出 阅读全文
posted @ 2025-01-25 10:05 deephub 阅读(21) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 117 下一页