上一页 1 ··· 36 37 38 39 40 41 42 43 44 ··· 139 下一页
摘要: 在深度学习训练过程中,学习率调度器扮演着至关重要的角色。这主要是因为在训练的不同阶段,模型的学习动态会发生显著变化。 在训练初期,损失函数通常呈现剧烈波动,梯度值较大且不稳定。此阶段的主要目标是在优化空间中快速接近某个局部最小值。然而,过高的学习率可能导致模型跳过潜在的优质局部最小值,从而限制了模型 阅读全文
posted @ 2024-09-25 09:53 deephub 阅读(246) 评论(0) 推荐(0)
摘要: 这是9月发布的一篇论文,Pagliardini等人在其论文中提出了一种新的优化算法——AdEMAMix。这种算法旨在解决当前广泛使用的Adam及其变体(如AdamW)在利用长期梯度信息方面的局限性。研究者们通过巧妙地结合两个不同衰减率的指数移动平均(EMA),设计出了这种新的优化器,以更有效地利用历 阅读全文
posted @ 2024-09-24 09:32 deephub 阅读(65) 评论(0) 推荐(0)
摘要: 在当代深度学习领域,PyTorch 已成为开发和训练神经网络的主要框架之一。然而随着模型复杂度的增加和数据规模的扩大,开发者常常面临各种调试和优化挑战。本文旨在为 PyTorch 开发者提供一个全面的调试指南,涵盖从基础概念到高级技术的广泛内容。 本指南的目标读者包括: 正在学习 PyTorch 的 阅读全文
posted @ 2024-09-23 09:54 deephub 阅读(55) 评论(0) 推荐(0)
摘要: Polars 最近新开发了一个可以支持 GPU 加速计算的执行引擎。这个引擎可以对超过 100GB 的数据进行交互式操作能。本文将详细讨论 Polars 中DF的概念、GPU 加速如何与 Polars DF协同工作,以及使用新的 CUDA 驱动执行引擎可能带来的性能提升。 https://avoid 阅读全文
posted @ 2024-09-22 12:28 deephub 阅读(79) 评论(0) 推荐(0)
摘要: 检索增强生成(RAG)技术概述 检索增强生成(Retrieval-Augmented Generation,简称 RAG)是一种旨在提升大型语言模型(Large Language Models,LLMs)性能的技术方法。其核心思想是通过整合外部可靠知识库的信息来增强模型的输出质量。 RAG 的工作原 阅读全文
posted @ 2024-09-21 09:49 deephub 阅读(128) 评论(0) 推荐(0)
摘要: 在当前大语言模型(LLM)应用开发的背景下,一个关键问题是如何评估模型输出的准确性。我们需要确定哪些评估指标能够有效衡量提示(prompt)的效果,以及在多大程度上需要对提示进行优化。 为解决这一问题,我们将介绍一个基于双代理的RAG(检索增强生成)评估系统。该系统使用生成代理和反馈代理,基于预定义 阅读全文
posted @ 2024-09-20 16:42 deephub 阅读(35) 评论(0) 推荐(0)
摘要: 在机器学习领域,特征重要性分析是一种广泛应用的模型解释工具。但是特征重要性并不等同于特征质量。本文将探讨特征重要性与特征有效性之间的关系,并引入两个关键概念:预测贡献度和错误贡献度。 核心概念 预测贡献度:衡量特征在模型预测中的权重,反映模型在训练集上识别的模式。这与传统的特征重要性概念相似。 错误 阅读全文
posted @ 2024-09-19 09:59 deephub 阅读(148) 评论(0) 推荐(0)
摘要: 近年来,Vision Transformer(ViT)在计算机视觉领域取得了巨大突破。然而ViT模型通常计算复杂度高,难以在资源受限的移动设备上部署。为了解决这个问题,研究人员提出了Convolutional Additive Self-attention Vision Transformers ( 阅读全文
posted @ 2024-09-18 09:56 deephub 阅读(73) 评论(0) 推荐(0)
摘要: 本文将深入探讨概率分布,详细阐述概率质量函数(PMF)、概率密度函数(PDF)和累积分布函数(CDF)这些核心概念,并通过实际示例进行说明。 在深入探讨PMF、PDF和CDF之前,有必要先简要介绍两种常用的概率分布:正态分布和均匀分布。 正态分布: 也称为高斯分布或钟形曲线,正态分布以其均值为中心对 阅读全文
posted @ 2024-09-17 16:55 deephub 阅读(194) 评论(0) 推荐(0)
摘要: 时间序列概况在日常生活和专业研究中都很常见。简而言之,时间序列概况是一系列连续的数据点 y(0), y(1), ..., y(t) ,其中时间 t 的点依赖于时间 t-1 的前一个点(或更早的时间点)。 在许多应用中,研究者致力于预测时间序列概况的未来行为。存在各种建模方法。这些模型通常基于过去或现 阅读全文
posted @ 2024-09-16 09:45 deephub 阅读(203) 评论(0) 推荐(0)
上一页 1 ··· 36 37 38 39 40 41 42 43 44 ··· 139 下一页