摘要:
背景:Transformer自身无法学到任何相对位置关系 Transformer原作:位置编码,按照在序列中的位置和在编码中的位置,计算一个当前位置的编码,直接加到embedding上 在高维空间中,两个向量大概率是正交的 相加比直接concate更省空间和时间 旋转位置编码:RoPE(LLaMa, 阅读全文
posted @ 2025-05-16 18:20
Phile-matology
阅读(22)
评论(0)
推荐(0)
摘要:
Tokenizer:输入文本,输出分词结果,该分词结果可以进行text embedding(即,在已知词表的情况下,输入的input_ids) 1. 切分方式:基于字、词和subword 字粒度太细、序列太长 基于词的无法学到词缀含义,且词表太大 subword保留高频词,低频词切分为子词 2. 切 阅读全文
posted @ 2025-05-16 16:26
Phile-matology
阅读(23)
评论(0)
推荐(0)
摘要:
Transformer模型结构: 示例:输入“我爱你”,输出“I love you”第一步:分词,将序列变为一个个token组成的向量,形状:[seq_len,]。本步涉及tokenizer相关技术 第二步:input embedding,将分词结果中的每一个token,编码成一个固定维数的embe 阅读全文
posted @ 2025-05-16 01:59
Phile-matology
阅读(95)
评论(0)
推荐(0)

浙公网安备 33010602011771号