摘要: 混合专家模型是一种稀疏门控制的深度学习模型,它主要由一组专家模型和一个门控模型组成。MoE的基本理念是将输入数据根据任务类型分割成多个区域,并将每个区域的数据分配一个或多个专家模型。每个专家模型可以专注于处理数额这部分数据,从而提高模型的整体性能。 MoE架构的基本原理非常简单明了,它主要包括两个核 阅读全文
posted @ 2025-07-02 15:13 小舟渡河 阅读(100) 评论(0) 推荐(0)
摘要: Lora微调 LoRA原理 LoRA,即LLMs的低秩适应,是参数高效微调最常用的方法。 LoRA的本质就是用更少的训练参数来近似LLM全参数微调所得的增量参数,从而达到使用更少显存占用的高效微调。 LoRA的核心思想是,在冻结预训练模型权重后,将可训练的低秩分解矩阵注入到Transformer架构 阅读全文
posted @ 2025-07-01 22:05 小舟渡河 阅读(100) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2025-05-12 14:02 小舟渡河 阅读(11) 评论(0) 推荐(0)
摘要: Sigmoid Tanh Relu ReLU提供了一种非常简单的非线性变换。给定元素x,ReLU函数被定义为该元素与0的最大值。 ReLU优点: ReLU解决了梯度消失的问题,当输入值为正时,神经元不会饱和 *计算复杂度低,不需要进行指数运算 ReLU缺点: 与Sigmoid一样,其输出不是以0为中 阅读全文
posted @ 2025-04-01 14:58 小舟渡河 阅读(54) 评论(0) 推荐(0)
摘要: 信息时代产生的大量数据使机器学习技术成功地应用在许多领域。大多数机器学习技术需要满足训练集与测试集独立同分布的假设,但在实际应用中这个假设很难满足。 域适应是一种在训练集和测试集不满足独立同分布条件下的机器学习技术。一般情况下的域适应只适用于源域目标域特征空间与标签空间都相同的情况,然而实际上这个条 阅读全文
posted @ 2025-03-16 12:16 小舟渡河 阅读(311) 评论(0) 推荐(0)
摘要: 参数优化 优化\(\beta_t\) 在"Improved Denoising Diffusion Probabilistic Models"一文中,作者提出了多种DDPM的技巧。其中一种就是把\(\beta_t\)的线性机制改为余弦机制。机制函数的实现相对灵活,只要保证在训练中间过程提供近似线性的 阅读全文
posted @ 2025-03-13 20:41 小舟渡河 阅读(120) 评论(0) 推荐(0)
摘要: 无监督领域自适应(UDA) 任务描述: 现有两个数据集 源域$D_s$和目标域$D_t$的经验分布不一样,但是任务是相同的。 任务是利用源域中已有的知识(标签信息)去学习目标域的样本类别。 直观感受 如现在有两堆数据,一堆事真实的动物照片,一堆是手绘动物的照片。两个数据集的风格明显不一样,他们的分布 阅读全文
posted @ 2025-03-11 22:08 小舟渡河 阅读(117) 评论(0) 推荐(0)
摘要: 过拟合问题 欠拟合:根本原因是特征维度过少,模型过于简单,导致拟合的函数无法满足训练集,误差较大; 解决方法:增加特征维度,增加训练数据; 过拟合:根本原因是特征维度过多,模型假设过于复杂,参数过多,训练数据过少,噪声过多,导致拟合的函数完美的预测训练集,但对新数据的测试集预测结果差。 过度的拟合了 阅读全文
posted @ 2025-03-05 16:07 小舟渡河 阅读(338) 评论(0) 推荐(0)
摘要: 简单来看:Causal learning = To learn causal models/features from data Causal research 里包括两种重要问题,一种是Causal learning,另一种是Causal reasoning(不同的文献有不同的分法和叫法,这里用J 阅读全文
posted @ 2025-03-05 15:44 小舟渡河 阅读(92) 评论(0) 推荐(0)
摘要: 生成对抗网络 背景 一般而言,深度学习模型可以分为判别式模型与生成式模型。由于反向传播、dropout等算法的发明,判别式模型得到了迅速发展。然而,由于生成式模型建模较为困难,因此发展缓慢,直到近年来最成功的生成模型--生成式对抗网络的发明,这一领域才换发新的生机。 简介 GAN是一种深度学习模型, 阅读全文
posted @ 2025-03-05 15:22 小舟渡河 阅读(25) 评论(0) 推荐(0)