2024 年 12月 31 日随笔档案 - deephub

2024年12月31日

摘要：大型语言模型在各个领域都展现出了卓越的性能，但其核心组件之一——softmax注意力机制在计算资源消耗方面存在显著局限性。本文将深入探讨如何通过替代方案实现线性时间复杂度，从而突破这一计算瓶颈。注意力机制基础理论本文假设读者已经熟悉ChatGPT、Claude等模型及其底层的transforme 阅读全文

posted @ 2024-12-31 10:45 deephub 阅读(39) 评论(0) 推荐(0)

deephub

overfit深度学习

公告