摘要: 更加好排版:https://www.big-yellow-j.top/posts/2025/05/08/GAN.html 日常使用比较多的生成模型比如GPT/Qwen等这些大多都是“文生文”模型(当然GPT有自己的大一统模型可以“文生图”)但是网上流行很多AI生成图像,而这些生成图像模型大多都离不开 阅读全文
posted @ 2025-05-11 12:53 Big-Yellow-J 阅读(1824) 评论(1) 推荐(0)
摘要: 这里介绍新的一个Backbone:ConvNeXt,主要来自两篇比较老的来自Meta论文: 1、《**A ConvNet for the 2020s**》 > arXiv:2201.03545 2、《**ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders**》 > arXiv:2301.00808 两篇论文讲的都是一个模型:*ConvNeXt*。这也是证明一点:Vit效果好并不是attention本身而是因为transform的超大感受野和各种trick。因此作者也是不断借鉴Vit的操作(用斜体表示) 阅读全文
posted @ 2025-05-01 14:50 Big-Yellow-J 阅读(4333) 评论(0) 推荐(1)
摘要: 本文主要介绍(论文发表时间:24.03-25.01)在多模态中使用多个视觉编码器如何进行特征融合操作(之所以用多视觉编码器,主要用途在于:有些视觉编码器可能只能提取到部分信息,就想通过另外一个编码器去捕捉之前编码器所没有捕捉得到的信息;另外一种情况就是:同时输入两类输入图像:1、高分辨率图像;2、低 阅读全文
posted @ 2025-04-27 22:56 Big-Yellow-J 阅读(539) 评论(0) 推荐(1)
摘要: 本文主要介绍了在 **OpenRLHF**中模型框架设计,主要分为3类模型:1、`actor model`;2、`critic model`;3、`reward model`这三类模型中分别起到作用:1、直接更具prompt输出response;2、输出token的评分(`action_values = values[:, -3:]`);3、返回整句输出评分(找出最后一个有效 token 的索引,然后从 value 向量中提取该位置的值作为 reward。) 阅读全文
posted @ 2025-04-22 22:40 Big-Yellow-J 阅读(1131) 评论(0) 推荐(0)
摘要: 本文写作于2025.3.20,恰好作者正好在外面实习,于此同时在实际工作中遇到这些知识点,因此就进行一个简短汇总方便后续回顾,内容同步更新(显示问题可以直接看):https://www.big-yellow-j.top/posts/2025/03/22/PythonThreading.html可以直 阅读全文
posted @ 2025-03-26 22:38 Big-Yellow-J 阅读(214) 评论(0) 推荐(0)
摘要: From:https://www.big-yellow-j.top/posts/2025/02/21/Kimi-DS-Paper.html DeepSeek最新论文:Native Sparse Attention: Hardware-Aligned and Natively Trainable Sp 阅读全文
posted @ 2025-03-02 15:07 Big-Yellow-J 阅读(456) 评论(0) 推荐(0)
摘要: From: https://www.big-yellow-j.top/posts/2025/02/15/LLM.html 各类LLM模型技术汇总 只去对比整体框架,对所采用的激活函数,归一化处理,位置编码等参考: 1、位置编码:https://www.big-yellow-j.top/posts/2 阅读全文
posted @ 2025-03-02 15:07 Big-Yellow-J 阅读(4556) 评论(0) 推荐(2)
摘要: From:https://www.big-yellow-j.top/posts/2025/02/17/Attention.html Attention操作以及内存优化管理 一、Attention操作 关于 Multi Head Attention网上有较多的解释了,这里主要记录如下几点 1、对于注意 阅读全文
posted @ 2025-03-02 15:07 Big-Yellow-J 阅读(1426) 评论(0) 推荐(0)
摘要: 1、混合专家模型(MoE) 参考HuggingFace中介绍:混合专家模型主要由两部分构成: 1、稀疏的MoE层:这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个),每个专家本身是一个独立的神经网络。在实际应用中,这些专家通常是前馈 阅读全文
posted @ 2025-01-29 22:14 Big-Yellow-J 阅读(1610) 评论(0) 推荐(0)
摘要: 主要介绍在CV中常用的Backbone原理简易代码(代码以及原理经常更新),参考论文中的表格,对不同的任务所使用的backbone如下: 针对上面内容分为两块内容:1、基于卷积神经网络的CV Backbone:1.Resnet系列;2.Unet系列等;2、基于Transformer的 CV Back 阅读全文
posted @ 2025-01-24 17:44 Big-Yellow-J 阅读(2015) 评论(0) 推荐(2)
levels of contents