灰马非马

2026年3月9日

摘要： Transformer的Decoder是模型中负责生成目标序列的关键部分，它通过多层结构逐步生成输出序列。 Decoder整体结构 Transformer Decoder由N个相同的Decoder层堆叠而成（通常N=6）。每个Decoder层包含三个核心组件：掩码自注意力层（Masked Self 阅读全文

posted @ 2026-03-09 22:33 灰马非马阅读(8) 评论(0) 推荐(0)

编码器(Encoder)

摘要：这里先讲推理阶段结构论文中的Transformer编码器由6个相同的层堆叠而成，每层包含：自注意力机制（包含残差连接和层归一化）前馈神经网络（包含残差连接和层归一化）输入 → [自注意力子层] → 残差连接 → 层归一化 → [FFN子层] → 残差连接 → 层归一化 → 输出自注意力机阅读全文

posted @ 2026-03-09 22:27 灰马非马阅读(22) 评论(0) 推荐(0)

2026年3月6日

位置编码（Positional Encoding）

摘要：为什么Transformer需要位置编码？ RNN和LSTM等模型天生具有顺序性（第t步的隐藏状态依赖于第t-1步） Transformer的自注意力和前馈网络是置换不变的（permutation invariant）——它们不关心输入的顺序位置编码是解决这个问题的关键方法位置编码的原理位置编阅读全文

posted @ 2026-03-06 21:35 灰马非马阅读(104) 评论(0) 推荐(0)

2026年3月4日

词嵌入(Word Embedding)

摘要：词嵌入模型如何训练词嵌入训练的核心目标是将语义相似的词映射到向量空间中距离更近的位置。 1. 主流训练方法 (1) 基于神经网络的方法（主流方法） Word2Vec（Google提出） CBOW模型：根据上下文词语预测目标词（输入：上下文词向量平均值，输出：目标词概率分布） Skip-gram模型阅读全文

posted @ 2026-03-04 23:09 灰马非马阅读(58) 评论(0) 推荐(0)

WordPiece分词器

摘要： word_piece_tokenizer.py import re import collections import json from typing import List, Dict, Tuple class WordPieceTokenizer: def __init__(self, voc 阅读全文

posted @ 2026-03-04 21:08 灰马非马阅读(7) 评论(0) 推荐(0)

2026年3月3日

BPE分词器实现

摘要： bpe_tokenizer.py import collections import json from typing import List, Tuple, Dict class BPETokenizer: def __init__(self, vocab_size=32000): """ BPE 阅读全文

posted @ 2026-03-03 22:06 灰马非马阅读(21) 评论(0) 推荐(0)

2026年3月2日

分词学习

摘要：分词学习讲解分词器的流程和原理，以及如何自己实现一个分词器分词原理分词器介绍分词器本质是将人类语言转换为模型可理解的离散符号序列（token ID序列），具体如下：文本到token的转换：将输入的自然语言文本拆分为模型可处理的最小语义单元（token）数值化映射：将每个token映射为唯阅读全文

posted @ 2026-03-02 22:34 灰马非马阅读(5) 评论(0) 推荐(0)

循环神经网络入门

摘要： todo 阅读全文

posted @ 2026-03-02 22:32 灰马非马阅读(2) 评论(0) 推荐(0)

Transformer入门

摘要： todo 阅读全文

posted @ 2026-03-02 22:32 灰马非马阅读(3) 评论(0) 推荐(0)

模型蒸馏

摘要： todo 阅读全文

posted @ 2026-03-02 22:32 灰马非马阅读(4) 评论(0) 推荐(0)

公告