deephub

2025年2月6日

摘要：大语言模型(LLM)评估系统在生成思维链(Chain-of-Thought, CoT)序列时，需要系统地捕捉评估过程中的推理步骤。但是由于缺乏人工标注的CoT训练数据，以及预定义评估提示在复杂任务中的局限性，构建高质量的LLM评估模型面临重大挑战。另外手动调整评估指令的方法在面对多样化和复杂任务时表阅读全文

posted @ 2025-02-06 10:41 deephub 阅读(44) 评论(0) 推荐(0)

2025年2月5日

DeepSeek技术报告解析：为什么DeepSeek-R1 可以用低成本训练出高效的模型

摘要： DeepSeek-R1 通过创新的训练策略实现了显著的成本降低，同时保持了卓越的模型性能。本文将详细分析其核心训练方法。成本优势对比在推理成本方面，DeepSeek-R1 展现出显著优势：输入 tokens : $0.55/百万 tokens 输出 tokens : $2.19/百万 toke 阅读全文

posted @ 2025-02-05 09:55 deephub 阅读(353) 评论(0) 推荐(0)

2025年2月4日

数据降维技术研究：Karhunen-Loève展开与快速傅里叶变换的理论基础及应用

摘要：在现代科学计算和数据分析领域，数据降维与压缩技术对于处理高维数据具有重要意义。本文主要探讨两种基础而重要的数学工具：Karhunen-Loève展开（KLE）和快速傅里叶变换（FFT）。通过分析这两种方法的理论基础和应用特点，阐述它们在数据降维中的优势和适用场景。 Karhunen-Loève展开的阅读全文

posted @ 2025-02-04 20:47 deephub 阅读(53) 评论(0) 推荐(0)

2025年2月3日

PyTorch生态系统中的连续深度学习：使用Torchdyn实现连续时间神经网络

摘要：神经常微分方程（Neural ODEs）是深度学习领域的创新性模型架构，它将神经网络的离散变换扩展为连续时间动力系统。与传统神经网络将层表示为离散变换不同，Neural ODEs将变换过程视为深度（或时间）的连续函数。这种方法为机器学习开创了新的研究方向，尤其在生成模型、时间序列分析和物理信息学习等阅读全文

posted @ 2025-02-03 09:52 deephub 阅读(46) 评论(0) 推荐(0)

2025年2月2日

https://avoid.overfit.cn/post/e57ca7e30ea74ad380b093a2599c9c01

摘要： DeepSeekMoE是一种创新的大规模语言模型架构，通过整合专家混合系统(Mixture of Experts, MoE)、改进的注意力机制和优化的归一化策略，在模型效率与计算能力之间实现了新的平衡。 DeepSeekMoE架构融合了专家混合系统(MoE)、多头潜在注意力机制(Multi-Head 阅读全文

posted @ 2025-02-02 10:29 deephub 阅读(26) 评论(0) 推荐(0)

2025年2月1日

哪些特征导致过拟合？使用ParShap 方法精准定位导致模型泛化能力下降的关键特征

摘要：机器学习的核心目标是在未见过的新数据上实现准确预测。当模型在训练数据上表现良好，但在测试数据上表现不佳时，即出现“过拟合”。这意味着模型从训练数据中学习了过多的噪声模式，从而丧失了在新数据上的泛化能力。那么，过拟合的根本原因是什么？具体来说，哪些特征（数据集的列）阻碍了模型在新数据上的有效泛化阅读全文

posted @ 2025-02-01 10:37 deephub 阅读(25) 评论(0) 推荐(0)

2025年1月31日

Python GIL（全局解释器锁）机制对多线程性能影响的深度分析

摘要：在Python开发领域，GIL（Global Interpreter Lock）一直是一个广受关注的技术话题。在3.13已经默认将GIL去除，在详细介绍3.13的更亲前，我们先要留了解GIL的技术本质、其对Python程序性能的影响。本文将主要基于CPython（用C语言实现的Python解释器，也阅读全文

posted @ 2025-01-31 10:46 deephub 阅读(82) 评论(0) 推荐(0)

2025年1月30日

深入剖析SVM核心机制：铰链损失函数的原理与代码实现

摘要：铰链损失(Hinge Loss)是支持向量机(Support Vector Machine, SVM)中最为核心的损失函数之一。该损失函数不仅在SVM中发挥着关键作用，也被广泛应用于其他机器学习模型的训练过程中。从数学角度来看，铰链损失函数提供了一种优雅的方式来量化分类器的预测性能。数学表达式铰阅读全文

posted @ 2025-01-30 14:03 deephub 阅读(29) 评论(0) 推荐(0)

2025年1月29日

十大主流联邦学习框架：技术特性、架构分析与对比研究

摘要：联邦学习（Federated Learning，FL）作为机器学习领域的关键技术范式，实现了在保障数据隐私的前提下进行分布式模型训练。为推进联邦学习模型的研发与部署，业界开发了多种开源及商业框架工具。这些基础库为联邦学习的技术实践提供了核心支持，包括模型训练、数据安全保护、通信协议以及结果聚合等关阅读全文

posted @ 2025-01-29 09:57 deephub 阅读(161) 评论(0) 推荐(0)

2025年1月28日

构建可靠的时间序列预测模型：数据泄露检测、前瞻性偏差消除与因果关系验证

摘要：在时间序列分析领域中，存在多种可能影响分析结果有效性的技术挑战。其中，数据泄露、前瞻性偏差和因果关系违反是最为常见且具有显著影响的问题。数据泄露：隐蔽的系统性错误数据泄露是指在预测时理论上无法获取的信息，通过某种方式影响了模型的训练过程。在时间序列分析中，由于数据的时序特性，这种问题尤为隐蔽。数阅读全文

posted @ 2025-01-28 09:50 deephub 阅读(97) 评论(0) 推荐(0)

overfit深度学习

公告