牛犁heart

2025年8月9日

摘要： Transformer整体架构图从上图可发现，该Transformer主要由Encoder和Decoder组成，Encoder和Decoder各6层，代码实现如下： def make_model( src_vocab, tgt_vocab, N=6, d_model=512, d_ff=2048, 阅读全文

posted @ 2025-08-09 23:12 牛犁heart 阅读(44) 评论(0) 推荐(0)

2025年8月6日

Transformer

摘要：首先，Transformer 论文：Attention Is All You Need 必不可少其次，Transformer 图解：https://jalammar.github.io/illustrated-transformer/ 也是必不可少 Transformer整体结构上图就是Tran 阅读全文

posted @ 2025-08-06 22:03 牛犁heart 阅读(55) 评论(0) 推荐(0)

2025年7月1日

Word2Vec 词向量

摘要：首先，为什么需要Word2Vec？因为人类世界的字符、语言计算机理解不了，需要将词语、语音等形式转化成数值形式，计算机才能理解，Word2Vec顾名思义，就是将词语转换成向量接下来就来揭开 word2vec 的神秘面纱吧~ Word2Vec Word2Vec 是一种广泛使用的NLP技术，目的是将阅读全文

posted @ 2025-07-01 22:59 牛犁heart 阅读(93) 评论(0) 推荐(0)

2025年5月17日

使用HuggingFace 模型并预测

摘要：下载HuggingFace 模型首先打开网址：https://huggingface.co/models 这个网址是huggingface/transformers支持的所有模型，目前大约一千多个。搜索gpt2（其他的模型类似，比如bert-base-uncased等），并点击进去。进入之后，可阅读全文

posted @ 2025-05-17 21:55 牛犁heart 阅读(296) 评论(0) 推荐(0)

2024年11月3日

GPT 1-3 简单介绍

摘要： GPT-1 简介 2018年6月，OpenAI公司发表了论文"Improving Language Understanding by Generative Pretraining"(用生成式预训练提高模型的语言理解能力)，推出了具有 1.17亿个参数的GPT-1(Generative Pre-tr 阅读全文

posted @ 2024-11-03 22:28 牛犁heart 阅读(461) 评论(0) 推荐(1)

2024年10月19日

LLM主要架构

摘要： LLM本身基于Transformer架构自2017年，Attention is all you need诞生起，原始的Transformer模型不同领域的模型提供了灵感和启发基于原始的Transformer框架，衍生了一系列模型，一些模型仅仅使用encode或decoder，有些模型同时使用en 阅读全文

posted @ 2024-10-19 18:21 牛犁heart 阅读(1123) 评论(0) 推荐(1)

2024年8月31日

transformer

摘要：论文：Attention is All You Need：Attention Is All You Need1. Transformer 整体结构首先介绍 Transformer 的整体结构，下图是 Transformer 用于中英文翻译的整体结构：可以看到transformer由Encoder和D 阅读全文

posted @ 2024-08-31 12:20 牛犁heart 阅读(191) 评论(0) 推荐(0)

2024年8月4日

ZeRO：一种去除冗余的数据并行方案

摘要： ZeRO：一种去除冗余的数据并行方案目前训练超大规模语言模型主要有两条技术路线： TPU + XLA + TensorFlow/JAX GPU + Pytorch + Megatron + DeepSpeed 前者由Google主导，由于TPU和自家云平台GCP深度绑定，对于非Googler来说并阅读全文

posted @ 2024-08-04 19:24 牛犁heart 阅读(1533) 评论(0) 推荐(1)

2024年7月11日

打印栈回溯

摘要：打印栈回溯 #include "execinfo.h" #include "stdio.h" #include "stdlib.h" void print_stacktrace() { int size=128; void* array[128]; int stack_num = backtrace 阅读全文

posted @ 2024-07-11 21:16 牛犁heart 阅读(22) 评论(0) 推荐(0)

2024年4月27日

TVM Pass优化 -- 算子融合(FuseOps)

摘要：定义算子融合就是将多个计算单元合并到一个计算单元里完成计算，减少中间数据读写内存的操作，从而节省计算时间。 TVM中将算子融合分为四种： kElemWise：两个tensor之间按照元素逐个操作的算子，实际上所有的四则运算都是这种类型 kBroadcast：带有广播操作的算子 kInjectiv 阅读全文

posted @ 2024-04-27 21:46 牛犁heart 阅读(2459) 评论(0) 推荐(0)

Stay Hungry，Stay Foolilsh

公告