2024 年 5月 12 日随笔档案 - deephub

2024年5月12日

You Only Cache Once:YOCO 基于Decoder-Decoder 的一个新的大语言模型架构

摘要：这是微软再5月刚刚发布的一篇论文提出了一种解码器-解码器架构YOCO，因为只缓存一次KV对，所以可以大量的节省内存。以前的模型都是通过缓存先前计算的键/值向量，可以在当前生成步骤中重用它们。键值(KV)缓存避免了对每个词元再次编码的过程，这样可以大大提高了推理速度。但是随着词元数量的增加，KV缓阅读全文

posted @ 2024-05-12 11:30 deephub 阅读(119) 评论(0) 推荐(0)

deephub

overfit深度学习

公告