摘要: todo 阅读全文
posted @ 2026-03-09 22:32 灰马非马 阅读(2) 评论(0) 推荐(0)
摘要: 这里先讲推理阶段 结构 论文中的Transformer编码器由6个相同的层堆叠而成,每层包含: 自注意力机制(包含残差连接和层归一化) 前馈神经网络(包含残差连接和层归一化) 输入 → [自注意力子层] → 残差连接 → 层归一化 → [FFN子层] → 残差连接 → 层归一化 → 输出 自注意力机 阅读全文
posted @ 2026-03-09 22:27 灰马非马 阅读(4) 评论(0) 推荐(0)
摘要: 为什么Transformer需要位置编码? RNN和LSTM等模型天生具有顺序性(第t步的隐藏状态依赖于第t-1步) Transformer的自注意力和前馈网络是置换不变的(permutation invariant)——它们不关心输入的顺序 位置编码是解决这个问题的关键方法 位置编码的原理 位置编 阅读全文
posted @ 2026-03-06 21:35 灰马非马 阅读(16) 评论(0) 推荐(0)
摘要: 词嵌入模型如何训练 词嵌入训练的核心目标是将语义相似的词映射到向量空间中距离更近的位置。 1. 主流训练方法 (1) 基于神经网络的方法(主流方法) Word2Vec(Google提出) CBOW模型:根据上下文词语预测目标词(输入:上下文词向量平均值,输出:目标词概率分布) Skip-gram模型 阅读全文
posted @ 2026-03-04 23:09 灰马非马 阅读(14) 评论(0) 推荐(0)
摘要: word_piece_tokenizer.py import re import collections import json from typing import List, Dict, Tuple class WordPieceTokenizer: def __init__(self, voc 阅读全文
posted @ 2026-03-04 21:08 灰马非马 阅读(3) 评论(0) 推荐(0)
摘要: bpe_tokenizer.py import collections import json from typing import List, Tuple, Dict class BPETokenizer: def __init__(self, vocab_size=32000): """ BPE 阅读全文
posted @ 2026-03-03 22:06 灰马非马 阅读(7) 评论(0) 推荐(0)
摘要: 分词学习 讲解分词器的流程和原理,以及如何自己实现一个分词器 分词原理 分词器介绍 分词器本质是将人类语言转换为模型可理解的离散符号序列(token ID序列),具体如下: 文本到token的转换:将输入的自然语言文本拆分为模型可处理的最小语义单元(token) 数值化映射:将每个token映射为唯 阅读全文
posted @ 2026-03-02 22:34 灰马非马 阅读(2) 评论(0) 推荐(0)
摘要: todo 阅读全文
posted @ 2026-03-02 22:32 灰马非马 阅读(1) 评论(0) 推荐(0)
摘要: todo 阅读全文
posted @ 2026-03-02 22:32 灰马非马 阅读(2) 评论(0) 推荐(0)
摘要: todo 阅读全文
posted @ 2026-03-02 22:32 灰马非马 阅读(2) 评论(0) 推荐(0)