大模型- - LeonYi

【大语言模型基础】GPT（Generative Pre-training ）生成式无监督预训练模型原理

摘要：GPT，GPT-2，GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili ELMo：将上下文当作特征，但是无监督的语料和我们真实的语料还是有区别的，不一定符合我们特定的任务，是一种双向的特征提取。 OpenAI GPT: 通过transformer decoder学习出来一个语言模型，不是固阅读全文

posted @ 2023-04-15 23:24 LeonYi 阅读(1899) 评论(0) 推荐(0)

【大语言模型基础】图解GPT原理-60行numpy实现GPT

摘要：写在前面本文主要是对博客 https://jaykmody.com/blog/gpt-from-scratch/ 的精简整理，并加入了自己的理解。中文翻译：https://jiqihumanr.github.io/2023/04/13/gpt-from-scratch/#circle=on 项目阅读全文

posted @ 2023-12-26 00:49 LeonYi 阅读(3592) 评论(2) 推荐(3)

【LLM应用】基于GPT3.5的代码编辑器Cursor试用-智能代码编辑助手

摘要：一、安装和使用官网下载安装Cursor，然后创建一个代码文件。Ctrl + K生成， Ctrl + L提问。默认每小时30词。 1. Try generating with command K on a new line. Ask for a pytorch script of a feedfo 阅读全文

posted @ 2023-04-16 21:46 LeonYi 阅读(603) 评论(0) 推荐(0)

【大语言模型基础】Transformer模型Torch代码详解和训练实战

摘要：

一、Transformer概述 Transformer是由谷歌在17年提出并应用于神经机器翻译的seq2seq模型，其结构完全通过自注意力机制完成对源语言序列和目标语言序列的全局依赖建模。 Transformer由编码器和解码器构成。下图展示了它的结构，其左侧和右侧分别对应着编码器（Encoder）阅读全文

posted @ 2023-10-24 23:53 LeonYi 阅读(2902) 评论(0) 推荐(3)

【LLM】在Colab上使用免费T4 GPU进行Chinese-Llama-2-7b-4bit推理

摘要：一、配置环境 1、打开colab，创建一个空白notebook，在[修改运行时环境]中选择15GB显存的T4 GPU. 2、pip安装依赖python包 !pip install --upgrade accelerate !pip install bitsandbytes transformers_ 阅读全文

posted @ 2023-10-06 23:24 LeonYi 阅读(2972) 评论(0) 推荐(1)

【大语言模型基础】-详解Transformer原理

摘要：一、Transformer Transformer最开始用于机器翻译任务，其架构是seq2seq的编码器解码器架构。其核心是自注意力机制：每个输入都可以看到全局信息，从而缓解RNN的长期依赖问题。输入：（待学习的）输入词嵌入 + 位置编码（相对位置）编码器结构： 6层编码器：一层编码器 = 阅读全文

posted @ 2023-04-15 22:51 LeonYi 阅读(2049) 评论(0) 推荐(1)

【LLM实战】基于QLoRA微调微软Phi-2的对话摘要任务

摘要：本文将在DialogSum数据集上使用2张T4卡对2.7B的microsoft/phi2进行LORA微调。博客翻译自Kaggle项目 fine-tuning-llm-for-dialogue-summarization https://www.kaggle.com/code/aisuko/fine 阅读全文

posted @ 2024-03-13 22:32 LeonYi 阅读(985) 评论(0) 推荐(0)

大模型高效微调详解-从Adpter、PrefixTuning到LoRA

摘要：

最新版本，详见我的知乎文章：https://zhuanlan.zhihu.com/p/696057719 一、背景目前NLP主流范式是在大量通用数据上进行预训练语言模型训练，然后再针对特定下游任务进行微调，达到领域适应（迁移学习）的目的。指令微调是预训练语言模型微调的主流范式其目的是尽量让下游阅读全文

posted @ 2024-05-06 23:40 LeonYi 阅读(4794) 评论(0) 推荐(2)

大模型高效微调-LoRA原理详解和训练过程深入分析

摘要：

博客首发于我的知乎，详见：https://zhuanlan.zhihu.com/p/702629428 一、LoRA原理 LoRA(Low-Rank Adaptation of LLMs)，即LLMs的低秩适应，是参数高效微调最常用的方法。 LoRA的本质就是用更少的训练参数来近似LLM全参数微调所阅读全文

posted @ 2024-06-11 21:50 LeonYi 阅读(23590) 评论(3) 推荐(5)

【LLM训练系列】NanoGPT源码详解和中文GPT训练实践

摘要：

本文是【训练LLM系列】的第一篇，主要重点介绍NanoGPT代码以及中文、英文预训练实践。最新版参见我的知乎：https://zhuanlan.zhihu.com/p/716442447 除跑通原始NanoGPT代码之外，分别使用了《红楼梦》、四大名著和几十本热门网络小说，进行了字符级、自行训练to 阅读全文

posted @ 2024-08-25 23:28 LeonYi 阅读(1763) 评论(0) 推荐(0)

【LLM训练系列】从零开始训练大模型之Phi2-mini-Chinese项目解读

摘要：一、前言本文主要是在复现和实践Phi2-mini-Chinese后，简要分析下Phi2-mini-Chinese这个项目，做一个学习实战总结。原文发布于知乎：https://zhuanlan.zhihu.com/p/718307193，转载请注明出数。 Phi2-mini-Chinese简介 P 阅读全文

posted @ 2024-09-09 23:52 LeonYi 阅读(1313) 评论(0) 推荐(1)

Qwen2ForSequenceClassification文本分类实战和经验分享

摘要：本文主要使用Qwen2ForSequenceClassification实现文本分类任务。文章首发于我的知乎：https://zhuanlan.zhihu.com/p/17468021019 一、实验结果和结论这几个月，在大模型分类场景做了很多实验，攒了一点小小经验。 1、短文本 1）query 阅读全文

posted @ 2025-01-12 23:35 LeonYi 阅读(1664) 评论(0) 推荐(0)

LeonYi

LeonYi

仰望星空，脚踏实地

合集-大模型

公告