随笔分类 -  深度学习

摘要:这里介绍新的一个Backbone:ConvNeXt,主要来自两篇比较老的来自Meta论文: 1、《**A ConvNet for the 2020s**》 > arXiv:2201.03545 2、《**ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders**》 > arXiv:2301.00808 两篇论文讲的都是一个模型:*ConvNeXt*。这也是证明一点:Vit效果好并不是attention本身而是因为transform的超大感受野和各种trick。因此作者也是不断借鉴Vit的操作(用斜体表示) 阅读全文
posted @ 2025-05-01 14:50 Big-Yellow-J 阅读(4253) 评论(0) 推荐(1)
摘要:本文主要介绍了在 **OpenRLHF**中模型框架设计,主要分为3类模型:1、`actor model`;2、`critic model`;3、`reward model`这三类模型中分别起到作用:1、直接更具prompt输出response;2、输出token的评分(`action_values = values[:, -3:]`);3、返回整句输出评分(找出最后一个有效 token 的索引,然后从 value 向量中提取该位置的值作为 reward。) 阅读全文
posted @ 2025-04-22 22:40 Big-Yellow-J 阅读(1108) 评论(0) 推荐(0)
摘要:DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming http://arxiv.org/abs/2406.19101 现存的文档理解多模态模型面临3个主要 阅读全文
posted @ 2024-08-27 17:29 Big-Yellow-J 阅读(143) 评论(0) 推荐(0)
摘要:主要对LLM模型微调方法进行介绍,以及部分微调方法代码实操。 阅读全文
posted @ 2024-04-14 14:44 Big-Yellow-J 阅读(81) 评论(0) 推荐(0)
摘要:图神经网络基础理论及实操 持续更新ing.............. 推荐阅读: 1、https://github.com/PacktPublishing/Hands-On-Graph-Neural-Networks-Using-Python 2、GAT:http://arxiv.org/abs/1 阅读全文
posted @ 2024-03-01 15:09 Big-Yellow-J 阅读(1641) 评论(0) 推荐(1)
摘要:Large Language Model 模型对比 对于 LLM模型框架主要如下3类[1]:1、autoregressive,2、autoencoding,3、encoder-decoder。主要对3类结构以及部分细节进行阐述。(对于框架分类其实多种,在此论文中[2]采用的是双向/单向结构) TOD 阅读全文
posted @ 2024-02-24 21:35 Big-Yellow-J 阅读(770) 评论(0) 推荐(0)
摘要:title: Attention is all you need阅读笔记 categories: - 深度学习 tags: - 基础算法 - 深度学习 mathjax: true Attention is all you need Transformer模型 Model Architecture T 阅读全文
posted @ 2024-02-24 21:33 Big-Yellow-J 阅读(271) 评论(0) 推荐(0)
摘要:title: 图像识别算法--VGG16 categories: - 文献笔记 tags: - 图像识别 - 深度学习 mathjax: true 前言:人类科技就是不断烧开水(发电)、丢石头(航天等)。深度学习就是一个不断解方程的过程(参数量格外大的方程) 本文内容: 1、介绍VGG16基本原理 阅读全文
posted @ 2024-02-24 21:30 Big-Yellow-J 阅读(1068) 评论(0) 推荐(0)

levels of contents