摘要: 2025.10.17 1.大型语言模型在预训练阶段学习通用表示能力,使得模型能在零样本学习中有效推理,这主要归功于Transformer架构的自注意力模块。自注意力机制使模型能够捕捉上下文依赖和长距离关系,从而学习通用表征,支持零样本泛化。 阅读全文
posted @ 2025-10-17 23:29 sellingpear 阅读(5) 评论(0) 推荐(0)
摘要: 2025.10.17 1.KV缓存(Key-Value Cache)是大语言模型推理优化中的一项技术,主要用于存储注意力机制中先前计算的键(Key)和值(Value)矩阵,以避免在生成每个新token时重复计算整个序列,从而加速解码过程并减少响应时间。 阅读全文
posted @ 2025-10-17 23:28 sellingpear 阅读(24) 评论(0) 推荐(0)
摘要: 2025.10.17 1.模型验证用于确保模型在未见数据上的表现,从而评估其泛化能力 阅读全文
posted @ 2025-10-17 23:27 sellingpear 阅读(17) 评论(0) 推荐(0)