2024年4月5日

transformer结构-position_encoding层

摘要: transformer结构-position_encoding层 1 完整代码 import math import torch import torch.nn as nn class PositionEncoding(nn.Module): def __init__(self, d_model, 阅读全文

posted @ 2024-04-05 13:29 lexn 阅读(21) 评论(0) 推荐(0) 编辑

2024年3月29日

LargeWorldModels-总结

摘要: LargeWorldModels-总结 链接:Large World Models lwm 原理论文 代码 hgf总链接 链接2:[2402.08268] World Model on Million-Length Video And Language With RingAttention (arx 阅读全文

posted @ 2024-03-29 10:21 lexn 阅读(28) 评论(0) 推荐(0) 编辑

2024年1月15日

第一周-transformer详解

摘要: 第一周-transformer详解 一、搭建教程的环境 49. 3.1使用Transformer构建语言模型-第1步_哔哩哔哩_bilibili 1 安装conda 详解见blogs 2 创建python指定环境 $conda create -n myenv python=3.6.6 $conda 阅读全文

posted @ 2024-01-15 09:41 lexn 阅读(10) 评论(0) 推荐(0) 编辑

2023年12月26日

查看onnx模型结构-使用Netron模块

摘要: 查看onnx模型结构-使用Netron模块 1 安装 $pip install netron 2 可选-查看安装的路径 $ pip show netron 3 查看onnx结构 import netron # �??�?ONNX模�??�??件�??路�? onnx_model_path = r'y 阅读全文

posted @ 2023-12-26 15:50 lexn 阅读(274) 评论(0) 推荐(0) 编辑

2023年11月7日

调用gpu/cuda常见问题

摘要: 调用gpu/cuda常见问题 1 、cuda out of memory 1)先查询nvidia-smi 确保gpu未占用 2)调用.cuda()方法前,确保你的系统中有可用的GPU,并且已经安装了适当的GPU驱动和CUDA工具包。否则,将会引发错误。 3) 使用这种方法可以正常使用 util是 g 阅读全文

posted @ 2023-11-07 09:17 lexn 阅读(103) 评论(0) 推荐(0) 编辑

2023年10月19日

函数性能统计

摘要: 函数性能统计 https://superfastpython.com/benchmark-python-code/#Benchmark_with_cProfile 第五章 详细阅读,能够列出每个函数的时间,以及函数中调用的函数的性能 profile 模块使用参考 Python性能分析工具Profil 阅读全文

posted @ 2023-10-19 10:35 lexn 阅读(8) 评论(0) 推荐(0) 编辑

2023年10月17日

大模型微调方法总结

摘要: 大模型微调方法总结 参考链接:https://blog.csdn.net/v_JULY_v/article/details/132116949 前言:随着chatGPT的备受欢迎,大模型异常火爆,各大厂商相继推出自己的大模型。 二级公司和用户需要根据自身的垂直领域微调这些具有语义理解能力的大模型,以 阅读全文

posted @ 2023-10-17 09:30 lexn 阅读(2126) 评论(0) 推荐(0) 编辑

2023年8月30日

NLP原理系列1-说清楚transformer原理

摘要: NLP原理系列1-说清楚transformer原理 来用思维导图和截图描述。 思维导图的本质是 变化(解决问题)-> 更好的, 或者复杂问题拆分为小问题 以及拆分的思路。 参考链接:李宏毅 transformer原理。 经典全图 0 transformer的前世今生 1 seq2seq 序列化数据 阅读全文

posted @ 2023-08-30 09:39 lexn 阅读(194) 评论(0) 推荐(0) 编辑

2023年5月23日

etx安装第三方库

摘要: etx安装第三方库 原理 本质就是对py的真实环境copy一份另建立一个目录 背景:ETX 对于迭代的sdk版本不易管理,来回切换比较麻烦。所以需要创建venv管理sdk版本。 conda和venv二者均可。 1 查找原来建立的venv $ python3 -m venv -h 列出帮助 2 新建 阅读全文

posted @ 2023-05-23 17:48 lexn 阅读(32) 评论(0) 推荐(0) 编辑

2023年5月10日

关于真正量化和假冒量化的原理分析

摘要: 关于真正量化和假冒量化的原理分析 背景: 目前大量的 GPT-base 模型的量化仅仅对权重(weights)进行量化,而没有对特征图(feature maps)进行量化。这样的量化模型实际上并不是真正的量化模型。 在深度学习中,模型参数(weights)和输入数据(feature maps)都可以 阅读全文

posted @ 2023-05-10 18:40 lexn 阅读(137) 评论(0) 推荐(0) 编辑

导航