2025 年 10月 17 日随笔档案 - sellingpear

摘要： 2025.10.17 1.大型语言模型在预训练阶段学习通用表示能力，使得模型能在零样本学习中有效推理，这主要归功于Transformer架构的自注意力模块。自注意力机制使模型能够捕捉上下文依赖和长距离关系，从而学习通用表征，支持零样本泛化。阅读全文

posted @ 2025-10-17 23:29 sellingpear 阅读(5) 评论(0) 推荐(0)

摘要： 2025.10.17 1.KV缓存（Key-Value Cache）是大语言模型推理优化中的一项技术，主要用于存储注意力机制中先前计算的键（Key）和值（Value）矩阵，以避免在生成每个新token时重复计算整个序列，从而加速解码过程并减少响应时间。阅读全文

posted @ 2025-10-17 23:28 sellingpear 阅读(24) 评论(0) 推荐(0)

摘要： 2025.10.17 1.模型验证用于确保模型在未见数据上的表现，从而评估其泛化能力阅读全文

posted @ 2025-10-17 23:27 sellingpear 阅读(17) 评论(0) 推荐(0)

卖梨的