会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
56
57
58
59
60
61
62
63
64
···
154
下一页
2024年7月22日
VQ-VAE:矢量量化变分自编码器,离散化特征学习模型
摘要: VQ-VAE 是变分自编码器(VAE)的一种改进。这些模型可以用来学习有效的表示。本文将深入研究 VQ-VAE 之前,不过,在这之前我们先讨论一些概率基础和 VAE 架构。 https://avoid.overfit.cn/post/85355d48ece84f77b7c1b02f60de9c8f
阅读全文
posted @ 2024-07-22 10:05 deephub
阅读(278)
评论(0)
推荐(0)
2024年7月20日
多任务高斯过程数学原理和Pytorch实现示例
摘要: 高斯过程其在回归任务中的应用我们都很熟悉了,但是我们一般介绍的都是针对单个任务的,也就是单个输出。本文我们将讨论扩展到多任务gp,强调它们的好处和实际实现。 本文将介绍如何通过共区域化的内在模型(ICM)和共区域化的线性模型(LMC),使用高斯过程对多个相关输出进行建模。 https://avoid
阅读全文
posted @ 2024-07-20 10:59 deephub
阅读(233)
评论(0)
推荐(0)
2024年7月19日
使用Pytorch中从头实现去噪扩散概率模型(DDPM)
摘要: 扩散模型通常是一种生成式深度学习模型,它通过学习去噪过程来创建数据。扩散模型有许多变体,其中最流行的是条件文本模型,能够根据提示生成特定的图像。某些扩散模型(如Control-Net)甚至能将图像与某些艺术风格融合。 在本文中,我们将构建基础的无条件扩散模型,即去噪扩散概率模型(DDPM)。从探究算
阅读全文
posted @ 2024-07-19 11:14 deephub
阅读(132)
评论(0)
推荐(0)
2024年7月18日
谷歌的时间序列预测的基础模型TimesFM详解和对比测试
摘要: TimesFM是一个为时间序列数据量身定制的大型预训练模型——一个无需大量再训练就能提供准确预测的模型。TimesFM有2亿参数,并在1000亿真实世界时间点上进行了训练。可以允许额外的协变量作为特征。 在本文中,我们将介绍模型架构、训练,并进行实际预测案例研究。将对TimesFM的预测能力进行分析
阅读全文
posted @ 2024-07-18 11:20 deephub
阅读(597)
评论(0)
推荐(0)
2024年7月17日
Pytorch的编译新特性TorchDynamo的工作原理和使用示例
摘要: 在深度学习中,优化模型性能至关重要,特别是对于需要快速执行和实时推断的应用。而PyTorch在平衡动态图执行与高性能方面常常面临挑战。传统的PyTorch优化技术在处理动态计算图时效果有限,导致训练时间延长和模型性能不佳。TorchDynamo是一种为PyTorch设计的即时(JIT)编译器,通过在
阅读全文
posted @ 2024-07-17 09:47 deephub
阅读(137)
评论(0)
推荐(0)
2024年7月16日
注意力机制中三种掩码技术详解和Pytorch实现
摘要: 注意力机制是许多最先进神经网络架构的基本组成部分,比如Transformer模型。注意力机制中的一个关键方面是掩码,它有助于控制信息流,并确保模型适当地处理序列。 在这篇文章中,我们将探索在注意力机制中使用的各种类型的掩码,并在PyTorch中实现它们。 在神经网络中,掩码是一种用于阻止模型使用输入
阅读全文
posted @ 2024-07-16 11:49 deephub
阅读(208)
评论(0)
推荐(0)
2024年7月15日
Transformer中高级位置编码的介绍和比较:Linear Rope、NTK、YaRN、CoPE
摘要: 在处理诸如文本之类的序列时,排序信息显然是至关重要的。为了结合排序信息而不是将序列视为集合,对位置信息进行编码是至关重要的。位置编码通过为每个位置分配嵌入向量并将其添加到相应的标记表示来实现这一点。绝对和相对位置编码是最常见的两种位置编码方式,但是本文将要比较更高级的位置编码方法: 1、RoPE 位
阅读全文
posted @ 2024-07-15 10:46 deephub
阅读(139)
评论(0)
推荐(0)
2024年7月14日
Doping:使用精心设计的合成数据测试和评估异常检测器的技术
摘要: 在这篇文章中,我们将探讨测试和评估异常检测器的问题(这是一个众所周知的难题),并提出了一种解决方案被称为“Doping”方法。使用Doping方法,真实数据行会被(通常是)随机修改,修改的方式是确保它们在某些方面可能成为异常值,这时应该被异常检测器检测到。然后通过评估检测器检测Doping记录的效果
阅读全文
posted @ 2024-07-14 11:17 deephub
阅读(34)
评论(0)
推荐(0)
2024年7月13日
持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现
摘要: 训练人工神经网络最重要的挑战之一是灾难性遗忘。神经网络的灾难性遗忘(catastrophic forgetting)是指在神经网络学习新任务时,可能会忘记之前学习的任务。这种现象特别常见于传统的反向传播算法和深度学习模型中。主要原因是网络在学习新数据时,会调整权重以适应新任务,这可能会导致之前学到的
阅读全文
posted @ 2024-07-13 11:33 deephub
阅读(189)
评论(0)
推荐(0)
2024年7月12日
Lookback Lens:用注意力图检测和减轻llm的幻觉
摘要: 在总结文章或回答给定段落的问题时,大语言模型可能会产生幻觉,并会根据给定的上下文回答不准确或未经证实的细节,这也被称为情境幻觉。为了解决这个问题,这篇论文的作者提出了一个简单的幻觉检测模型,其输入特征由上下文的注意力权重与新生成的令牌(每个注意头)的比例给出。它被称为回看或基于回看比率的检测器。 该
阅读全文
posted @ 2024-07-12 11:26 deephub
阅读(55)
评论(0)
推荐(0)
上一页
1
···
56
57
58
59
60
61
62
63
64
···
154
下一页
公告