上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 24 下一页
摘要: 以下是 Transformer 常见面试题及解析,覆盖基础原理、训练优化、应用实践等方向,帮你应对面试: 一、基础原理类 Transformer 为何用多头注意力? 将输入特征拆分为多个子空间,每个头学习不同特征(如语法 / 语义),从多维度理解输入,提升模型表达力,避免单头 “视角局限”。 Q 和 阅读全文
posted @ 2025-06-22 16:03 m516606428 阅读(288) 评论(0) 推荐(0)
摘要: 这是关于BERT(Bidirectional Encoder Representations from Transformers)模型中 Encoder(编码器)结构的讲解内容,属于自然语言处理(NLP)领域的深度学习知识。 BERT 是基于 Transformer 架构的预训练模型,Encoder 阅读全文
posted @ 2025-06-22 16:00 m516606428 阅读(26) 评论(0) 推荐(0)
摘要: 在多头注意力机制里,Softmax 公式起着至关重要的作用,它是连接 K、Q、V 计算与最终注意力权重的桥梁。下面以通俗易懂的方式,结合之前的例子,为你讲解它们之间的关系: 一、Softmax 在注意力机制中的核心作用 Softmax 的本质:把一组 “得分” 转化为 “概率分布”,让所有概率的总和 阅读全文
posted @ 2025-06-22 15:55 m516606428 阅读(313) 评论(0) 推荐(0)
摘要: 多头注意力机制里的 K、Q、V,其实就像你在图书馆找书时的三个 “小助手”,而 “多头” 就像同时派好几拨小助手用不同角度找书,最后把大家的发现汇总起来~下面用大白话拆解它们的工作逻辑: 一、先搞懂 K、Q、V 是啥?—— 找书三要素 假设你要在图书馆找一本和 “人工智能” 相关的书,K、Q、V 可 阅读全文
posted @ 2025-06-22 15:53 m516606428 阅读(150) 评论(0) 推荐(0)
摘要: 在 Transformer 架构里,多头注意力机制是相当关键的部分,它能让模型从不同的表示子空间来捕捉特征。下面为你详细介绍其中的 K、Q、V 矩阵: 核心概念阐释 Query(Q):它起着 “查询” 的作用,负责与键进行匹配,目的是找出需要关注的位置。 Key(K):其功能是 “标识”,也就是为每 阅读全文
posted @ 2025-06-22 15:52 m516606428 阅读(131) 评论(0) 推荐(0)
摘要: import torchimport torch.nn as nnimport torch.nn.functional as Fclass MultiHeadAttention(nn.Module): def __init__(self, embed_dim, num_heads, dropout= 阅读全文
posted @ 2025-06-22 15:50 m516606428 阅读(112) 评论(0) 推荐(0)
摘要: 这是 BERT 模型里 Self - Attention(自注意力)机制 的计算流程图,理解它就能懂 Transformer 核心逻辑!用大白话拆解每一步: 一、输入:L×h 的 X 是啥? L:序列长度(一句话拆成多少个词 / 词元,比如 “你好中国” 拆成 3 个词,L=3 )。 h:隐藏层维度 阅读全文
posted @ 2025-06-22 15:47 m516606428 阅读(118) 评论(0) 推荐(0)
摘要: 这是 BERT 模型里 Self - Attention(自注意力)机制 的计算流程图,理解它就能懂 Transformer 核心逻辑!用大白话拆解每一步: 一、输入:L×h 的 X 是啥? L:序列长度(一句话拆成多少个词 / 词元,比如 “你好中国” 拆成 3 个词,L=3 )。 h:隐藏层维度 阅读全文
posted @ 2025-06-22 15:30 m516606428 阅读(69) 评论(0) 推荐(0)
摘要: BERT 和 GPT - 1 谁更好用,取决于具体的 NLP 任务需求,以下从核心任务场景对比: 一、做 “文本理解” 任务(分类、问答、实体识别)→ BERT 更好用 BERT 优势:用双向 Transformer,能同时看 “上文 + 下文” 理解语义(比如 “苹果” 在 “吃苹果” 和 “苹果 阅读全文
posted @ 2025-06-22 14:56 m516606428 阅读(29) 评论(0) 推荐(0)
摘要: 以下为你清晰梳理 BERT 与 GPT - 1 的模型规模参数: 一、BERT 核心版本参数 BERT 版本层数(Transformer 层)隐藏层维度注意力头数参数量 BERT - Base 12 768 12 约 1.1 亿 BERT - Large 24 1024 16 约 3.4 亿 二、G 阅读全文
posted @ 2025-06-22 14:55 m516606428 阅读(71) 评论(0) 推荐(0)
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 24 下一页