LeonYi

[置顶] 【LLM】大模型落地-从理论到实践

摘要：简述按个人偏好和目标总结了学习目标和路径（可按需学习），后续将陆续整理出相应学习资料和资源。 🎯学习目标熟悉主流LLM（Llama, ChatGLM, Qwen）的技术架构和技术细节；有实际应用RAG、PEFT和SFT的项目经验较强的NLP基础，熟悉BERT、T5、Transformer和G 阅读全文

posted @ 2023-11-21 00:32 LeonYi 阅读(2226) 评论(0) 推荐(2) 编辑

2024年3月13日

【LLM实战】基于QLoRA微调微软Phi-2的对话摘要任务

摘要：本文将在DialogSum数据集上使用2张T4卡对2.7B的microsoft/phi2进行LORA微调。博客翻译自Kaggle项目 fine-tuning-llm-for-dialogue-summarization https://www.kaggle.com/code/aisuko/fine 阅读全文

posted @ 2024-03-13 22:32 LeonYi 阅读(147) 评论(0) 推荐(0) 编辑

【预训练语言模型】使用Transformers库进行BERT预训练

摘要：基于 HuggingFace的Transformer库，在Colab或Kaggle进行预训练。鉴于算力限制，选用了较小的英文数据集wikitext-2 目的：跑通Mask语言模型的预训练流程一、准备 1.1 安装依赖 !pip3 install --upgrade pip !pip instal 阅读全文

posted @ 2024-03-13 22:25 LeonYi 阅读(249) 评论(0) 推荐(0) 编辑

【预训练语言模型】使用Transformers库进行GPT2预训练

摘要：基于 HuggingFace的Transformer库，在Colab或Kaggle进行预训练。本教程提供：英文数据集wikitext-2和代码数据集的预训练。注：可以自行上传数据集进行训练目的：跑通自回归语言模型的预训练流程一、准备 1.1 安装依赖 !pip install -U data 阅读全文

posted @ 2024-03-13 22:21 LeonYi 阅读(135) 评论(0) 推荐(0) 编辑

2024年1月27日

【深度学习】批量归一化 BatchNormalization

摘要：一、背景机器学习的本质是对物理世界进行建模，做的就是拟合数据分布。但是在模型训练过程中，神经网络参数不断更新，导数中间层的数据分布频繁地变化（内部协变量偏移），不利于网络参数优化。具体表现为：每层的参数需不断适应新的输入数据分布，降低学习速度，增大学习的难度（层数多）输入可能趋向于变大或者变阅读全文

posted @ 2024-01-27 22:31 LeonYi 阅读(98) 评论(0) 推荐(1) 编辑

2023年12月26日

【大语言模型基础】图解GPT原理-60行numpy实现GPT

摘要：写在前面本文主要是对博客 https://jaykmody.com/blog/gpt-from-scratch/ 的精简整理，并加入了自己的理解。中文翻译：https://jiqihumanr.github.io/2023/04/13/gpt-from-scratch/#circle=on 项目阅读全文

posted @ 2023-12-26 00:49 LeonYi 阅读(790) 评论(2) 推荐(3) 编辑

2023年10月24日

【大语言模型基础】Transformer模型Torch代码详解和训练实战

摘要：

一、Transformer概述 Transformer是由谷歌在17年提出并应用于神经机器翻译的seq2seq模型，其结构完全通过自注意力机制完成对源语言序列和目标语言序列的全局依赖建模。 Transformer由编码器和解码器构成。下图展示了它的结构，其左侧和右侧分别对应着编码器（Encoder）阅读全文

posted @ 2023-10-24 23:53 LeonYi 阅读(864) 评论(0) 推荐(3) 编辑

2023年10月6日

【LLM】在Colab上使用免费T4 GPU进行Chinese-Llama-2-7b-4bit推理

摘要：一、配置环境 1、打开colab，创建一个空白notebook，在[修改运行时环境]中选择15GB显存的T4 GPU. 2、pip安装依赖python包 !pip install --upgrade accelerate !pip install bitsandbytes transformers_ 阅读全文

posted @ 2023-10-06 23:24 LeonYi 阅读(1592) 评论(0) 推荐(1) 编辑

2023年7月3日

【深度学习框架】基于标量自动微分的微型神经网络库MicroGrad（类Pytorch）

摘要：一、MicroGrad MicroGrad是大牛Andrej Karpathy写的一个非常轻量级别的神经网络库（框架），其基本构成为一个90行python代码的标量反向传播（自动微分）引擎，以及在此基础上实现的神经网络层。其介绍如下： A tiny scalar-valued autograd e 阅读全文

posted @ 2023-07-03 00:02 LeonYi 阅读(294) 评论(0) 推荐(3) 编辑

2023年5月5日

【优化算法】从梯度下降到深度学习非凸优化

摘要：一、数学优化 1.1 定义 Mathematical Optimization（数学优化）问题，亦称最优化问题，是指在一定约束条件下，求解一个目标函数的最大值（或最小值）问题。根据输入变量 𝑿 的值域是否为实数域，数学优化问题可分为离散优化问题和连续优化问题。在连续优化问题中，根据是否有变量的阅读全文

posted @ 2023-05-05 00:07 LeonYi 阅读(351) 评论(0) 推荐(1) 编辑

LeonYi

仰望星空，脚踏实地

公告