deephub

2025年1月25日

摘要：多LLM摘要框架在每轮对话中包含两个基本步骤:生成和评估。这些步骤在多LLM分散式摘要和集中式摘要中有所不同。在两种策略中,k个不同的LLM都会生成多样化的文本摘要。然而在评估阶段,多LLM集中式摘要方法使用单个LLM来评估摘要并选择最佳摘要,而分散式多LLM摘要则使用k个LLM进行评估。论文提出阅读全文

posted @ 2025-01-25 10:05 deephub 阅读(66) 评论(0) 推荐(0)

2025年1月24日

Meta-CoT：通过元链式思考增强大型语言模型的推理能力

摘要：大型语言模型（LLMs）在处理复杂推理任务时面临挑战，这突显了其在模拟人类认知中的不足。尽管 LLMs 擅长生成连贯文本和解决简单问题，但在需要逻辑推理、迭代方法和结果验证的复杂任务（如高级数学问题和抽象问题解决）中，其能力有所欠缺。这种局限性源于 LLMs 的信息处理方式。大多数模型采用类似于系阅读全文

posted @ 2025-01-24 09:49 deephub 阅读(39) 评论(0) 推荐(0)

2025年1月23日

记忆层增强的 Transformer 架构：通过可训练键值存储提升 LLM 性能的创新方法

摘要：大语言模型（LLM）通过其参数储存了大量信息，这些信息主要以密集层中线性矩阵变换的权重形式存在。然而，参数规模的扩大必然导致计算成本和能源消耗的显著增加。这种参数存储方式是否可以通过更高效的键值查找机制来优化？尽管此前已有多项相关研究，但在当前 AI 架构规模下的实践尚属首次。 Meta 研究团阅读全文

posted @ 2025-01-23 10:05 deephub 阅读(81) 评论(0) 推荐(0)

2025年1月22日

时间序列平稳性的双重假设检验：KPSS与ADF方法比较研究

摘要：在进行时间序列分析之前，确定序列的平稳性是一个关键步骤。平稳性指的是时间序列的统计特性（如均值和方差）在时间维度上保持不变。本文将详细介绍如何运用 KPSS 检验和 Dickey-Fuller 检验来验证序列的平稳性。这两种检验方法基于不同的统计假设：KPSS 检验的原假设是数据非平稳，而 Dick 阅读全文

posted @ 2025-01-22 14:04 deephub 阅读(72) 评论(0) 推荐(0)

2025年1月21日

金融波动率的多模型建模研究：GARCH族与HAR模型的Python实现与对比分析

摘要：金融资产波动率建模在现代金融工程中具有重要地位，其应用涵盖风险管理、衍生品定价和投资组合优化等核心领域。本文着重探讨三种主流波动率建模方法：广义自回归条件异方差模型(GARCH)、Glosten-Jagannathan-Runkle-GARCH模型(GJR-GARCH)以及异质自回归模型(HAR)。阅读全文

posted @ 2025-01-21 10:04 deephub 阅读(104) 评论(0) 推荐(0)

2025年1月20日

时间序列分析中的状态估计：状态空间模型与卡尔曼滤波的隐状态估计

摘要：状态空间模型通过构建生成可观测数据的潜在未观测状态模型来进行时间序列分析。作为该方法论的核心，卡尔曼滤波为实时估计这些隐状态提供了一个理论完备的解决方案。本文深入探讨这些方法的理论基础和实践应用，阐述其在多领域的适用性。状态空间模型的理论基础状态空间模型采用两个基本方程来描述动态系统。状态转移方阅读全文

posted @ 2025-01-20 11:06 deephub 阅读(55) 评论(0) 推荐(0)

2025年1月18日

提升数据科学工作流效率的10个Jupyter Notebook高级特性

摘要： Jupyter Notebooks已成为数据科学家、机器学习工程师和Python开发人员的核心开发工具。其核心优势在于提供了一个集成式环境，支持代码执行、文本编辑和数据可视化的无缝整合。尽管大多数用户熟悉其基本功能，但许多能显著提升工作效率的高级特性往往被忽视。本文将介绍一些高级功能，帮助您在数据阅读全文

posted @ 2025-01-18 16:58 deephub 阅读(37) 评论(0) 推荐(0)

2025年1月17日

LossVal：一种集成于损失函数的高效数据价值评估方法

摘要：在机器学习领域，训练数据的价值并非均等：部分训练数据点对模型训练的影响显著高于其他数据点。评估单个数据点的影响程度通常需要反复重训练模型，计算效率低下。LossVal提出了一种创新方法，通过将数据价值评估过程直接集成到神经网络的损失函数中，实现了高效的数据价值评估。现代机器学习模型通常依赖大规模数阅读全文

posted @ 2025-01-17 17:15 deephub 阅读(31) 评论(0) 推荐(0)

2025年1月16日

Python时间序列分析：使用TSFresh进行自动化特征提取

摘要： TSFresh（基于可扩展假设检验的时间序列特征提取）是一个专门用于时间序列数据特征自动提取的框架。该框架提取的特征可直接应用于分类、回归和异常检测等机器学习任务。TSFresh通过自动化特征工程流程，显著提升了时间序列分析的效率。自动化特征提取过程涉及处理数百个统计特征，包括均值、方差、偏度和自阅读全文

posted @ 2025-01-16 17:57 deephub 阅读(192) 评论(0) 推荐(0)

2025年1月15日

Coconut:基于连续潜在空间推理,提升大语言模型推理能力的新方法

摘要： Coconut（连续思维链）提出了一种新的大语言模型推理范式，该范式在潜在空间中进行运算，利用模型隐藏层生成的连续思维状态取代传统的基于文本的推理方式。系统将这些状态以输入嵌入的形式反馈至模型，通过广度优先搜索方法同时探索多条推理路径，避免了单一路径推理的局限性。通过规避基于自然语言推理的固有效率瓶阅读全文

posted @ 2025-01-15 13:30 deephub 阅读(48) 评论(0) 推荐(0)

overfit深度学习

公告