摘要: 前面已经介绍了简单的视觉编码器,这里主要介绍多模态中使用比较多的两种backbone:1、Clip;2、SAM。对于这两个backbone简单介绍基本原理,主要是讨论使用这个backbone。 1、CV中常用Backbone-2:ConvNeXt模型详解 2、CV中常用Backbone(Resnet 阅读全文
posted @ 2025-05-25 21:24 Big-Yellow-J 阅读(343) 评论(0) 推荐(0)
摘要: From: https://www.big-yellow-j.top/posts/2025/05/11/VAE.html 前文已经介绍了GAN的基本原理以及代码操作,本文主要介绍VAE其基本原理以及代码实战 VAE or AE 介绍VAE之前了解两个概念:AE(AutoEncoder,自编码器)和V 阅读全文
posted @ 2025-05-18 21:25 Big-Yellow-J 阅读(1221) 评论(0) 推荐(0)
摘要: 更加好排版:https://www.big-yellow-j.top/posts/2025/05/08/GAN.html 日常使用比较多的生成模型比如GPT/Qwen等这些大多都是“文生文”模型(当然GPT有自己的大一统模型可以“文生图”)但是网上流行很多AI生成图像,而这些生成图像模型大多都离不开 阅读全文
posted @ 2025-05-11 12:53 Big-Yellow-J 阅读(680) 评论(1) 推荐(0)
摘要: 这里介绍新的一个Backbone:ConvNeXt,主要来自两篇比较老的来自Meta论文: 1、《**A ConvNet for the 2020s**》 > arXiv:2201.03545 2、《**ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders**》 > arXiv:2301.00808 两篇论文讲的都是一个模型:*ConvNeXt*。这也是证明一点:Vit效果好并不是attention本身而是因为transform的超大感受野和各种trick。因此作者也是不断借鉴Vit的操作(用斜体表示) 阅读全文
posted @ 2025-05-01 14:50 Big-Yellow-J 阅读(1914) 评论(0) 推荐(1)
摘要: 本文主要介绍(论文发表时间:24.03-25.01)在多模态中使用多个视觉编码器如何进行特征融合操作(之所以用多视觉编码器,主要用途在于:有些视觉编码器可能只能提取到部分信息,就想通过另外一个编码器去捕捉之前编码器所没有捕捉得到的信息;另外一种情况就是:同时输入两类输入图像:1、高分辨率图像;2、低 阅读全文
posted @ 2025-04-27 22:56 Big-Yellow-J 阅读(429) 评论(0) 推荐(1)
摘要: 本文主要介绍了在 **OpenRLHF**中模型框架设计,主要分为3类模型:1、`actor model`;2、`critic model`;3、`reward model`这三类模型中分别起到作用:1、直接更具prompt输出response;2、输出token的评分(`action_values = values[:, -3:]`);3、返回整句输出评分(找出最后一个有效 token 的索引,然后从 value 向量中提取该位置的值作为 reward。) 阅读全文
posted @ 2025-04-22 22:40 Big-Yellow-J 阅读(702) 评论(0) 推荐(0)
摘要: 本文写作于2025.3.20,恰好作者正好在外面实习,于此同时在实际工作中遇到这些知识点,因此就进行一个简短汇总方便后续回顾,内容同步更新(显示问题可以直接看):https://www.big-yellow-j.top/posts/2025/03/22/PythonThreading.html可以直 阅读全文
posted @ 2025-03-26 22:38 Big-Yellow-J 阅读(140) 评论(0) 推荐(0)
摘要: From:https://www.big-yellow-j.top/posts/2025/02/21/Kimi-DS-Paper.html DeepSeek最新论文:Native Sparse Attention: Hardware-Aligned and Natively Trainable Sp 阅读全文
posted @ 2025-03-02 15:07 Big-Yellow-J 阅读(350) 评论(0) 推荐(0)
摘要: From:https://www.big-yellow-j.top/posts/2025/02/17/Attention.html Attention操作以及内存优化管理 一、Attention操作 关于 Multi Head Attention网上有较多的解释了,这里主要记录如下几点 1、对于注意 阅读全文
posted @ 2025-03-02 15:07 Big-Yellow-J 阅读(937) 评论(0) 推荐(0)
摘要: From: https://www.big-yellow-j.top/posts/2025/02/15/LLM.html 各类LLM模型技术汇总 只去对比整体框架,对所采用的激活函数,归一化处理,位置编码等参考: 1、位置编码:https://www.big-yellow-j.top/posts/2 阅读全文
posted @ 2025-03-02 15:07 Big-Yellow-J 阅读(3293) 评论(0) 推荐(2)
levels of contents