上一页 1 2 3 4 5 6 7 8 ··· 50 下一页
摘要: https://zhuanlan.zhihu.com/p/35391826 阅读全文
posted @ 2024-07-17 16:10 小kk_p 阅读(14) 评论(0) 推荐(0)
摘要: https://zhuanlan.zhihu.com/p/436621498 4x、8x、16x分别代表下采样的倍率,即patch的大小; https://blog.csdn.net/aixiaomi123/article/details/128724267 阅读全文
posted @ 2024-07-16 11:12 小kk_p 阅读(16) 评论(0) 推荐(0)
摘要: 在Vision Transformer (ViT) 中,自注意力机制的范围是指模型在处理图像块时,每个图像块能够与其他哪些图像块进行交互。ViT的自注意力机制具有全局范围,这意味着在自注意力层中,每个图像块都可以与其他所有图像块进行交互,而不管它们在原始图像中的空间位置如何。以下是ViT自注意力机制 阅读全文
posted @ 2024-07-16 10:27 小kk_p 阅读(231) 评论(0) 推荐(0)
摘要: https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247617834&idx=1&sn=2b8f0f56b8b5b25e5ba1240e5705a6a8&chksm=e9e004a1de978db79be4b5d01829959efb839 阅读全文
posted @ 2024-07-11 11:40 小kk_p 阅读(28) 评论(0) 推荐(0)
摘要: 多头注意力机制是一种用于处理序列数据的神经网络结构,在自然语言处理领域中得到广泛应用。它可以帮助模型更好地理解和学习输入序列中的信息,提高模型在各种任务上的性能。 多头注意力机制是基于注意力机制的改进版本,它引入了多个注意力头,每个头都可以关注输入序列中不同位置的信息。通过汇总多个头的输出,模型可以 阅读全文
posted @ 2024-07-09 18:19 小kk_p 阅读(441) 评论(0) 推荐(0)
摘要: https://zhuanlan.zhihu.com/p/688993851 阅读全文
posted @ 2024-07-08 15:39 小kk_p 阅读(143) 评论(0) 推荐(0)
摘要: https://blog.csdn.net/Kelly_Ai_Bai/article/details/135081885 05. 为什么transformer块使用LayerNorm而不是BatchNormBatch Normalization 是对这批样本的同一维度特征做归一化, Layer No 阅读全文
posted @ 2024-07-06 17:41 小kk_p 阅读(131) 评论(0) 推荐(0)
摘要: 现代大型语言模型,如GPT-3、GPT-J、和GPT-Neo等,主要采用Decoder-only结构,这是由于几个关键原因: 并行计算:Decoder-only模型在训练时可以采用单向注意力机制,这意味着每个token只关注它之前的token。这种单向性使得模型可以在训练时更容易地并行处理数据,从而 阅读全文
posted @ 2024-07-05 18:22 小kk_p 阅读(1210) 评论(0) 推荐(0)
摘要: 可行: https://zhuanlan.zhihu.com/p/702060624 https://zhuanlan.zhihu.com/p/692417348 https://blog.csdn.net/weixin_43564783/article/details/131869748 阅读全文
posted @ 2024-07-05 11:54 小kk_p 阅读(13) 评论(0) 推荐(0)
摘要: https://blog.csdn.net/Scenery0519/article/details/128081062 nccl-test的测试:https://blog.csdn.net/MrKingloveyou/article/details/136074767 nccl2的调用案例:http 阅读全文
posted @ 2024-07-03 14:13 小kk_p 阅读(241) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 50 下一页