上一页 1 ··· 24 25 26 27 28 29 30 31 32 ··· 144 下一页
摘要: 原始"Attention Is All You Need"论文中提出的标准Transformer架构最初设计用于处理离散输入和输出序列标记(token),但将其应用于时间序列分析时,需要对模型结构进行适当调整以适应连续数据特性。本文详细阐述了使原始Transformer架构能够高效处理连续值时间序列 阅读全文
posted @ 2025-03-16 10:29 deephub 阅读(34) 评论(0) 推荐(0)
摘要: 在构建搜索引擎系统时,有效的评估机制是保证系统质量的关键环节。当用户输入查询词如"machine learning tutorials python",系统返回结果列表后,如何客观评估这些结果的相关性和有效性?这正是信息检索评估指标的核心价值所在。 分析用户与搜索引擎的交互模式,我们可以观察到以下行 阅读全文
posted @ 2025-03-15 10:17 deephub 阅读(41) 评论(0) 推荐(0)
摘要: 神经网络技术已在计算机视觉与自然语言处理等多个领域实现了突破性进展。然而在微分方程求解领域,传统神经网络因其依赖大规模标记数据集的特性而表现出明显局限性。物理信息神经网络(Physics-Informed Neural Networks, PINN)通过将物理定律直接整合到学习过程中,有效弥补了这一 阅读全文
posted @ 2025-03-14 10:08 deephub 阅读(282) 评论(0) 推荐(0)
摘要: 时间序列特征提取是数据科学工作流程中的关键环节,能够将原始时间序列数据转化为具有分析价值的特征表示。本文详细介绍 18 种专业的 Python 库,这些库可用于从时间序列数据中提取关键特征,支持数据科学家进行更深入的分析与建模。 时间序列特征提取的理论基础与价值 时间序列特征是对时间序列数据的统计量 阅读全文
posted @ 2025-03-13 14:43 deephub 阅读(68) 评论(0) 推荐(0)
摘要: SigLIP 2 是一个新型多语言视觉-语言编码器系列,通过整合基于字幕的预训练、自监督学习机制(包括自蒸馏和掩码预测)以及在线数据管理策略,对原始 SigLIP 模型进行了显著改进。这些优化使 SigLIP 2 在零样本分类、图像-文本检索以及为视觉语言模型(VLM)提供视觉表示提取方面均取得了卓 阅读全文
posted @ 2025-03-12 10:06 deephub 阅读(263) 评论(0) 推荐(0)
摘要: 近期大语言模型(LLM)的基准测试结果引发了对现有架构扩展性的思考。尽管OpenAI推出的GPT-4.5被定位为其最强大的聊天模型,但在多项关键基准测试上的表现却不及某些规模较小的模型。DeepSeek-V3在AIME 2024评测中达到了39.2%的Pass@1准确率,在SWE-bench Ver 阅读全文
posted @ 2025-03-11 11:30 deephub 阅读(47) 评论(0) 推荐(0)
摘要: 选择性自我监督微调(Selective Self-to-Supervised Fine-Tuning,S3FT)是一种创新的大语言模型微调方法,该方法通过部署专门的语义等价性判断器来识别训练集中模型自身生成的正确响应。在微调过程中,S3FT策略性地结合这些正确响应与剩余样本的标准答案(或其释义版本) 阅读全文
posted @ 2025-03-10 09:56 deephub 阅读(30) 评论(0) 推荐(0)
摘要: 在LLama等大规模Transformer架构的语言模型中,归一化模块是构建网络稳定性的关键组件。本文将系统分析归一化技术的必要性,并详细阐述为何原始Transformer架构中的LayerNorm在LLama模型中被RMSNorm所替代的技术原理。 https://avoid.overfit.cn 阅读全文
posted @ 2025-03-09 10:27 deephub 阅读(79) 评论(0) 推荐(0)
摘要: NeoBERT代表了双向编码器模型的新一代技术发展,通过整合前沿架构改进、现代大规模数据集和优化的预训练策略,有效缩小了传统编码器与高性能自回归语言模型之间的性能差距。该模型在支持4096 tokens的扩展上下文窗口的同时,仅维持250M参数规模的紧凑设计。值得注意的是,尽管参数量较小,NeoBE 阅读全文
posted @ 2025-03-08 10:01 deephub 阅读(40) 评论(0) 推荐(0)
摘要: 这个研究探讨了大型语言模型(LLMs)在执行复杂推理任务时面临的计算资源消耗与响应延迟问题。研究特别聚焦于思维链(Chain-of-Thought, CoT)提示范式的效率局限性。CoT虽然有效,但在推理过程中需要生成冗长、详尽的逐步推理,导致计算资源利用率低下且延迟显著增加。这与人类问题解决机制形 阅读全文
posted @ 2025-03-07 19:55 deephub 阅读(22) 评论(0) 推荐(0)
上一页 1 ··· 24 25 26 27 28 29 30 31 32 ··· 144 下一页