随笔分类 -  LLM

摘要:Transformer整体架构图 从上图可发现,该Transformer主要由Encoder和Decoder组成,Encoder和Decoder各6层,代码实现如下: def make_model( src_vocab, tgt_vocab, N=6, d_model=512, d_ff=2048, 阅读全文
posted @ 2025-08-09 23:12 牛犁heart 阅读(52) 评论(0) 推荐(0)
摘要:首先,Transformer 论文:Attention Is All You Need 必不可少 其次,Transformer 图解:https://jalammar.github.io/illustrated-transformer/ 也是必不可少 Transformer整体结构 上图就是Tran 阅读全文
posted @ 2025-08-06 22:03 牛犁heart 阅读(69) 评论(0) 推荐(0)
摘要:首先,为什么需要Word2Vec? 因为人类世界的字符、语言计算机理解不了,需要将词语、语音等形式转化成数值形式,计算机才能理解,Word2Vec顾名思义,就是将词语转换成向量 接下来就来揭开 word2vec 的神秘面纱吧~ Word2Vec Word2Vec 是一种广泛使用的NLP技术,目的是将 阅读全文
posted @ 2025-07-01 22:59 牛犁heart 阅读(131) 评论(0) 推荐(0)
摘要:GPT-1 简介 2018年6月,OpenAI公司发表了论文"Improving Language Understanding by Generative Pretraining"(用生成式预训练提高模型的语言理解能力), 推出了具有 1.17亿个参数的GPT-1(Generative Pre-tr 阅读全文
posted @ 2024-11-03 22:28 牛犁heart 阅读(509) 评论(0) 推荐(1)
摘要:LLM本身基于Transformer架构 自2017年,Attention is all you need诞生起,原始的Transformer模型不同领域的模型提供了灵感和启发 基于原始的Transformer框架,衍生了一系列模型,一些模型仅仅使用encode或decoder,有些模型同时使用en 阅读全文
posted @ 2024-10-19 18:21 牛犁heart 阅读(1217) 评论(0) 推荐(1)