摘要:
2025.10.17 1.大型语言模型在预训练阶段学习通用表示能力,使得模型能在零样本学习中有效推理,这主要归功于Transformer架构的自注意力模块。自注意力机制使模型能够捕捉上下文依赖和长距离关系,从而学习通用表征,支持零样本泛化。 阅读全文
posted @ 2025-10-17 23:29
sellingpear
阅读(5)
评论(0)
推荐(0)
摘要:
2025.10.17 1.KV缓存(Key-Value Cache)是大语言模型推理优化中的一项技术,主要用于存储注意力机制中先前计算的键(Key)和值(Value)矩阵,以避免在生成每个新token时重复计算整个序列,从而加速解码过程并减少响应时间。 阅读全文
posted @ 2025-10-17 23:28
sellingpear
阅读(24)
评论(0)
推荐(0)
摘要:
2025.10.17 1.模型验证用于确保模型在未见数据上的表现,从而评估其泛化能力 阅读全文
posted @ 2025-10-17 23:27
sellingpear
阅读(17)
评论(0)
推荐(0)

浙公网安备 33010602011771号