2024 年 5月 13 日随笔档案 - deephub

2024年5月13日

摘要： Transformers 是一个强大的架构，但模型因其采用的自注意力机制，虽然能够有效地处理序列数据并捕获长距离依赖关系，但同时也容易导致在训练过程中出现OOM（Out of Memory，内存不足）或者达到GPU的运行时限制。主要是因为参数数量庞大：Transformer模型通常包含大量的参数阅读全文

posted @ 2024-05-13 10:12 deephub 阅读(41) 评论(0) 推荐(0)

deephub

overfit深度学习

公告