上一页 1 ··· 53 54 55 56 57 58 59 60 61 ··· 156 下一页
摘要: 近年来,Vision Transformer(ViT)在计算机视觉领域取得了巨大突破。然而ViT模型通常计算复杂度高,难以在资源受限的移动设备上部署。为了解决这个问题,研究人员提出了Convolutional Additive Self-attention Vision Transformers ( 阅读全文
posted @ 2024-09-18 09:56 deephub 阅读(119) 评论(0) 推荐(0)
摘要: 本文将深入探讨概率分布,详细阐述概率质量函数(PMF)、概率密度函数(PDF)和累积分布函数(CDF)这些核心概念,并通过实际示例进行说明。 在深入探讨PMF、PDF和CDF之前,有必要先简要介绍两种常用的概率分布:正态分布和均匀分布。 正态分布: 也称为高斯分布或钟形曲线,正态分布以其均值为中心对 阅读全文
posted @ 2024-09-17 16:55 deephub 阅读(252) 评论(0) 推荐(0)
摘要: 时间序列概况在日常生活和专业研究中都很常见。简而言之,时间序列概况是一系列连续的数据点 y(0), y(1), ..., y(t) ,其中时间 t 的点依赖于时间 t-1 的前一个点(或更早的时间点)。 在许多应用中,研究者致力于预测时间序列概况的未来行为。存在各种建模方法。这些模型通常基于过去或现 阅读全文
posted @ 2024-09-16 09:45 deephub 阅读(274) 评论(0) 推荐(0)
摘要: 数据科学家在实践中经常面临的一个关键挑战是缺乏足够的标记数据来训练可靠且准确的模型。标记数据对于监督学习任务(如分类或回归)至关重要。但是在许多领域,获取标记数据往往成本高昂、耗时或不切实际。相比之下,未标记数据通常较易获取,但无法直接用于模型训练。 如何利用未标记数据来改进监督学习模型?这正是半监 阅读全文
posted @ 2024-09-15 17:52 deephub 阅读(57) 评论(0) 推荐(0)
摘要: 本文将介绍MemLong,这是一种创新的长文本语言模型生成方法。MemLong通过整合外部检索器来增强模型处理长上下文的能力,从而显著提升了大型语言模型(LLM)在长文本处理任务中的表现。 核心概念 MemLong的设计理念主要包括以下几点: 高效扩展LLM上下文窗口的轻量级方法。 利用不可训练的外 阅读全文
posted @ 2024-09-14 09:27 deephub 阅读(331) 评论(0) 推荐(0)
摘要: Kolmogorov-Arnold网络(KAN)的提出为深度学习领域带来了重要突破,它作为多层感知器(MLP)的一种替代方案,展现了新的可能性。MLP作为众多深度学习模型的基础构件,包括目前最先进的预测方法如N-BEATS、NHiTS和TSMixer,已经在各个领域得到广泛应用。 但是我们在使用KA 阅读全文
posted @ 2024-09-13 09:41 deephub 阅读(132) 评论(0) 推荐(0)
摘要: AUROC 指标,顾名思义,是基于 ROC 的,ROC 是一条显示真阳性率与假阳性率关系的曲线。ROC 曲线本身并不假设使用任何特定的阈值。但是曲线上的每个点对应一个特定的阈值。 在下面的图中,蓝色曲线是 ROC。这条曲线下的面积(AUROC)衡量了模型的总体性能,是在所有潜在阈值上的平均值。它衡量 阅读全文
posted @ 2024-09-12 12:14 deephub 阅读(129) 评论(0) 推荐(0)
摘要: 大型语言模型(LLMs)作为一种生成式AI技术,在近两年内获得了显著的关注和应用。但是在实际部署中,LLMs的知识局限性和幻觉问题仍然是一个挑战。检索增强生成(Retrieval Augmented Generation,RAG)通过为LLM提供额外的外部知识和上下文,有效地解决了这些问题。截至20 阅读全文
posted @ 2024-09-11 11:16 deephub 阅读(98) 评论(0) 推荐(0)
摘要: 本文继续深入探讨蒙特卡罗 (MC)方法。这些方法的特点是能够仅从经验中学习,不需要任何环境模型,这与动态规划(DP)方法形成对比。 这一特性极具吸引力 - 因为在实际应用中,环境模型往往是未知的,或者难以精确建模转移概率。以21点游戏为例:尽管我们完全理解游戏规则,但通过DP方法解决它将极为繁琐 - 阅读全文
posted @ 2024-09-10 10:50 deephub 阅读(63) 评论(0) 推荐(0)
摘要: 通过探索看似不相关的大语言模型(LLM)架构之间的潜在联系,我们可能为促进不同模型间的思想交流和提高整体效率开辟新的途径。 尽管Mamba等线性循环神经网络(RNN)和状态空间模型(SSM)近来备受关注,Transformer架构仍然是LLM的主要支柱。这种格局可能即将发生变化:像Jamba、Sam 阅读全文
posted @ 2024-09-09 10:34 deephub 阅读(102) 评论(0) 推荐(0)
上一页 1 ··· 53 54 55 56 57 58 59 60 61 ··· 156 下一页