上一页 1 2 3 4 5 6 7 ··· 118 下一页
摘要: 在图神经网络(Graph Neural Networks, GNNs)的发展历程中,注意力机制扮演着至关重要的角色。通过赋予模型关注图中最相关节点和连接的能力,注意力机制显著提升了GNN在节点分类、链接预测和图分类等任务上的性能。尽管这一机制的重要性不言而喻,但其内部工作原理对许多研究者和工程师而言 阅读全文
posted @ 2025-03-05 10:20 deephub 阅读(16) 评论(0) 推荐(0) 编辑
摘要: 在快速发展的自然语言处理(NLP)领域,分词(tokenization)作为将原始文本转换为机器可处理格式的首要环节,具有不可替代的重要性。分词过程将文本分割成离散单元——即token,这些token构成了后续分析的基础,包括词嵌入(embedding)、语法解析和模型训练等多个环节。从历史视角来看 阅读全文
posted @ 2025-03-04 10:36 deephub 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 向后淘汰法(Backward Elimination)是机器学习领域中一种重要的特征选择技术,其核心思想是通过系统性地移除对模型贡献较小的特征,以提高模型性能和可解释性。该方法从完整特征集出发,逐步剔除不重要的特征,最终保留对预测结果最具影响力的变量子集。 https://avoid.overfit 阅读全文
posted @ 2025-03-03 10:12 deephub 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 在时间序列分析领域,评估数据的平稳性是构建准确模型的基础。ADF(Augmented Dickey-Fuller,增广迪基-富勒检验)和KPSS(Kwiatkowski-Phillips-Schmidt-Shin)检验是用于评估时间序列数据平稳性的两种关键统计假设检验方法。当我们遇到ADF检验失败而 阅读全文
posted @ 2025-03-02 10:08 deephub 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 在大规模深度学习模型训练过程中,GPU内存容量往往成为制约因素,尤其是在训练大型语言模型(LLM)和视觉Transformer等现代架构时。由于大多数研究者和开发者无法使用配备海量GPU内存的高端计算集群,因此掌握有效的内存优化技术变得尤为关键。本文将系统性地介绍多种内存优化策略,这些技术组合应用可 阅读全文
posted @ 2025-03-01 10:09 deephub 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 本文将介绍如何为大型语言模型(LLM)添加自定义token并进行训练,使模型能够有效地利用这些新增token。以Llama 3.2模型为基础,实现了类似DeepSeek R1中think和answer标记功能的扩展方法,通过监督微调使模型学习使用这些标记进行推理过程与答案输出的区分。![] 本文聚焦 阅读全文
posted @ 2025-02-28 20:47 deephub 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 特征选择作为机器学习工作流程中的关键环节,对模型性能具有决定性影响。Featurewiz是一个功能强大的特征选择库,具备以下核心能力: 高度自动化的特征选择,仅需少量代码即可完成。 全面的特征工程功能,不仅能够选择特征,还能生成数百个衍生特征并自动筛选最优特征组合。 实现了广受认可的mRMR(最小冗 阅读全文
posted @ 2025-02-27 10:40 deephub 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 这篇论文探讨了基于规则的强化学习(RL)如何解锁LLM中的高级推理能力。通过在受控的逻辑谜题上进行训练并强制执行结构化的思考过程,即使是相对较小的模型也能开发出可转移的问题解决策略。这种方法不仅提高了逻辑任务的性能,而且在高级数学问题解决、软件调试和交互式AI助手等领域也显示出希望。 研究目的 Lo 阅读全文
posted @ 2025-02-26 10:26 deephub 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 大型语言模型 (LLM) 在文本生成领域展现出卓越的能力,然而当需要 引用上下文内容 以支撑其生成内容时,现有方法仍面临挑战。 传统方法在引导 LLM 准确、可靠地对上下文内容进行引用时,容易产生 幻觉,即生成与上下文不符或缺乏上下文依据的引用,从而降低了生成回复的可信度和实用性。 为了解决这一关键 阅读全文
posted @ 2025-02-25 10:53 deephub 阅读(7) 评论(0) 推荐(0) 编辑
摘要: DeepSeek R1 的完整训练流程核心在于,在其基础模型 DeepSeek V3 之上,运用了多种强化学习策略。本文将从一个可本地运行的基础模型起步,并参照其技术报告,完全从零开始构建 DeepSeek R1,理论结合实践,逐步深入每个训练环节。通过可视化方式,由浅入深地解析 DeepSeek 阅读全文
posted @ 2025-02-24 11:25 deephub 阅读(41) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 118 下一页