Loading

上一页 1 2 3 4 5 6 ··· 17 下一页
摘要: 背景 跑代码的时候看见这样的报错 虽然代码运行起来了,但是xformers库没有起作用,这样模型效果会有折扣 于是用命令装了一下xformers库(这个库也要和对应的cuda版本匹配) pip3 install -U xformers --index-url https://download.pyt 阅读全文
posted @ 2025-12-02 15:36 SaTsuki26681534 阅读(33) 评论(0) 推荐(0)
摘要: 代码: 点击查看代码 ## from https://github.com/graykode/nlp-tutorial/tree/master/5-1.Transformer import numpy as np import torch import torch.nn as nn import t 阅读全文
posted @ 2025-11-26 16:30 SaTsuki26681534 阅读(9) 评论(0) 推荐(0)
摘要: 这个问题问到了Transformer的核心参数!Transformer的embedding size(嵌入维度) ,本质是输入数据(如单词、图像块)被转化为稠密向量后的维度,也是整个Transformer网络的基础维度(常与hidden size等价)。 核心含义与作用 实现“离散到连续”的转化:将 阅读全文
posted @ 2025-11-26 16:28 SaTsuki26681534 阅读(8) 评论(0) 推荐(0)
摘要: 训练配置中设定 total_iter = 250000(总迭代 250k 次) 不扩大的话,1000 张图每 epoch 完成,需要 250 个 epoch 才能达到 250k 迭代 扩大 10 倍后,1000 张图虚拟变成 10000 张,只需要 25 个 epoch 即可达到 250k 迭代 ✓ 阅读全文
posted @ 2025-11-25 21:29 SaTsuki26681534 阅读(6) 评论(0) 推荐(0)
摘要: 介绍IRSRMamba模型中的basicSR库的代码结构 阅读全文
posted @ 2025-11-25 20:57 SaTsuki26681534 阅读(3) 评论(0) 推荐(0)
摘要: 总结:各方法的典型关联(以大语言模型为例) Pre-Training:先让模型学“通识知识”(如语言、世界知识)。 Supervised Fine-Tuning (SFT):用标注数据让模型学“任务基本模式”(如指令遵循)。 Reward Modeling:训练模型学“人类偏好标准”(如什么回答更优 阅读全文
posted @ 2025-10-20 20:52 SaTsuki26681534 阅读(19) 评论(0) 推荐(0)
摘要: 四种微调方式 Full 对预训练模型的所有参数进行微调,让模型从底层到顶层的所有参数都参与更新,彻底适配下游任务 优点:模型对任务的适配性最强,在数据充足、任务复杂时效果通常最优 缺点: 资源消耗极大(千亿参数模型需高端 GPU 集群,训练时长以天 / 周计); 数据量不足时极易过拟合(模型死记训练 阅读全文
posted @ 2025-10-20 20:32 SaTsuki26681534 阅读(40) 评论(0) 推荐(0)
摘要: 表格对比 从上图中可以看出,png和tiff用到的最多,jpg/jpeg虽然在网络上很常见,但是对于CV来说不是很实用。 分别介绍 JPG/JPEG:最通用的 “低成本” 格式(分类任务首选) JPEG 是压缩标准,JPG 是文件扩展名,二者完全等价。 核心特性:基于DCT 离散余弦变换的有损压缩, 阅读全文
posted @ 2025-10-11 10:21 SaTsuki26681534 阅读(39) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2025-09-26 19:07 SaTsuki26681534 阅读(17) 评论(0) 推荐(0)
摘要: 在图像的频域里,“频率”描述的是像素值随空间位置变化的快慢。因此: 它们各自代表什么? 低频成分(Low Frequencies) 表示缓慢变化的内容:大尺度的亮度/颜色分布、光照与阴影、平滑的渐变、物体的大致形状与轮廓块面。 直观上,一张被高斯模糊后的图几乎只剩低频。 高频成分(High Freq 阅读全文
posted @ 2025-09-26 18:54 SaTsuki26681534 阅读(29) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 17 下一页