会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
39
40
41
42
43
44
45
46
47
···
154
下一页
2025年1月27日
知识蒸馏技术原理详解:从软标签到模型压缩的实现机制
摘要: 知识蒸馏是一种通过性能与模型规模的权衡来实现模型压缩的技术。其核心思想是将较大规模模型(称为教师模型)中的知识迁移到规模较小的模型(称为学生模型)中。本文将深入探讨知识迁移的具体实现机制。 知识蒸馏原理 知识蒸馏的核心目标是实现从教师模型到学生模型的知识迁移。在实际应用中,无论是大规模语言模型(LL
阅读全文
posted @ 2025-01-27 09:46 deephub
阅读(277)
评论(0)
推荐(0)
2025年1月26日
Python高性能编程:五种核心优化技术的原理与Python代码
摘要: 在性能要求较高的应用场景中,Python常因其执行速度不及C、C++或Rust等编译型语言而受到质疑。然而通过合理运用Python标准库提供的优化特性,我们可以显著提升Python代码的执行效率。本文将详细介绍几种实用的性能优化技术。 https://avoid.overfit.cn/post/d5
阅读全文
posted @ 2025-01-26 09:39 deephub
阅读(44)
评论(0)
推荐(0)
2025年1月25日
面向长文本的多模型协作摘要架构:多LLM文本摘要方法
摘要: 多LLM摘要框架在每轮对话中包含两个基本步骤:生成和评估。这些步骤在多LLM分散式摘要和集中式摘要中有所不同。在两种策略中,k个不同的LLM都会生成多样化的文本摘要。然而在评估阶段,多LLM集中式摘要方法使用单个LLM来评估摘要并选择最佳摘要,而分散式多LLM摘要则使用k个LLM进行评估。 论文提出
阅读全文
posted @ 2025-01-25 10:05 deephub
阅读(104)
评论(0)
推荐(0)
2025年1月24日
Meta-CoT:通过元链式思考增强大型语言模型的推理能力
摘要: 大型语言模型(LLMs)在处理复杂推理任务时面临挑战,这突显了其在模拟人类认知中的不足。尽管 LLMs 擅长生成连贯文本和解决简单问题,但在需要逻辑推理、迭代方法和结果验证的复杂任务(如高级数学问题和抽象问题解决)中,其能力有所欠缺。 这种局限性源于 LLMs 的信息处理方式。大多数模型采用类似于系
阅读全文
posted @ 2025-01-24 09:49 deephub
阅读(48)
评论(0)
推荐(0)
2025年1月23日
记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法
摘要: 大语言模型(LLM)通过其参数储存了大量信息,这些信息主要以密集层中线性矩阵变换的权重形式存在。然而,参数规模的扩大必然导致计算成本和能源消耗的显著增加。 这种参数存储方式是否可以通过更高效的键值查找机制来优化? 尽管此前已有多项相关研究,但在当前 AI 架构规模下的实践尚属首次。 Meta 研究团
阅读全文
posted @ 2025-01-23 10:05 deephub
阅读(115)
评论(0)
推荐(0)
2025年1月22日
时间序列平稳性的双重假设检验:KPSS与ADF方法比较研究
摘要: 在进行时间序列分析之前,确定序列的平稳性是一个关键步骤。平稳性指的是时间序列的统计特性(如均值和方差)在时间维度上保持不变。本文将详细介绍如何运用 KPSS 检验和 Dickey-Fuller 检验来验证序列的平稳性。这两种检验方法基于不同的统计假设:KPSS 检验的原假设是数据非平稳,而 Dick
阅读全文
posted @ 2025-01-22 14:04 deephub
阅读(102)
评论(0)
推荐(0)
2025年1月21日
金融波动率的多模型建模研究:GARCH族与HAR模型的Python实现与对比分析
摘要: 金融资产波动率建模在现代金融工程中具有重要地位,其应用涵盖风险管理、衍生品定价和投资组合优化等核心领域。本文着重探讨三种主流波动率建模方法:广义自回归条件异方差模型(GARCH)、Glosten-Jagannathan-Runkle-GARCH模型(GJR-GARCH)以及异质自回归模型(HAR)。
阅读全文
posted @ 2025-01-21 10:04 deephub
阅读(129)
评论(0)
推荐(0)
2025年1月20日
时间序列分析中的状态估计:状态空间模型与卡尔曼滤波的隐状态估计
摘要: 状态空间模型通过构建生成可观测数据的潜在未观测状态模型来进行时间序列分析。作为该方法论的核心,卡尔曼滤波为实时估计这些隐状态提供了一个理论完备的解决方案。本文深入探讨这些方法的理论基础和实践应用,阐述其在多领域的适用性。 状态空间模型的理论基础 状态空间模型采用两个基本方程来描述动态系统。状态转移方
阅读全文
posted @ 2025-01-20 11:06 deephub
阅读(81)
评论(0)
推荐(0)
2025年1月18日
提升数据科学工作流效率的10个Jupyter Notebook高级特性
摘要: Jupyter Notebooks已成为数据科学家、机器学习工程师和Python开发人员的核心开发工具。其核心优势在于提供了一个集成式环境,支持代码执行、文本编辑和数据可视化的无缝整合。尽管大多数用户熟悉其基本功能,但许多能显著提升工作效率的高级特性往往被忽视。 本文将介绍一些高级功能,帮助您在数据
阅读全文
posted @ 2025-01-18 16:58 deephub
阅读(59)
评论(0)
推荐(0)
2025年1月17日
LossVal:一种集成于损失函数的高效数据价值评估方法
摘要: 在机器学习领域,训练数据的价值并非均等:部分训练数据点对模型训练的影响显著高于其他数据点。评估单个数据点的影响程度通常需要反复重训练模型,计算效率低下。LossVal提出了一种创新方法,通过将数据价值评估过程直接集成到神经网络的损失函数中,实现了高效的数据价值评估。 现代机器学习模型通常依赖大规模数
阅读全文
posted @ 2025-01-17 17:15 deephub
阅读(43)
评论(0)
推荐(0)
上一页
1
···
39
40
41
42
43
44
45
46
47
···
154
下一页
公告