随笔分类 -  深度学习

摘要:各式各样的Attention自注意力(Self-Attention)的计算复杂度问题 Local Attention 🌟 一、为什么需要 Local Attention? 先回忆一下普通的 Self-Attention: 每个词都要对序列中 所有其他词 计算注意力权重。 如果句子长度是 n, 则计算量是 \(O(n^2)\) 阅读全文
posted @ 2025-10-30 18:21 -一叶知秋- 阅读(6) 评论(0) 推荐(0)
摘要:Sequence2SequenceSequence2Sequence Sequence-to-Sequence(简称 Seq2Seq) 是一种用于序列到序列(Sequence → Sequence)映射任务的深度学习模型结构。 它最早由 Google 在 2014 年提出,用于 机器翻译(Machine Translation),后 阅读全文
posted @ 2025-10-30 18:07 -一叶知秋- 阅读(28) 评论(0) 推荐(0)
摘要:批量归一化--改变有些参数改变可能梯度很平滑,有些参数改变可能梯度很陡峭有些参数改变可能梯度很平滑,有些参数改变可能梯度很陡峭 怎么改变这个,使每个参数改变尽可能梯度都一样呢 特征归一化 对于每个维度i:均值:(\(m_i\))标准差:(\(\sigma_i\)) \(\widetilde{x}_i^r \leftarrow \frac{x_i^r - m_i}{\si 阅读全文
posted @ 2025-10-27 15:42 -一叶知秋- 阅读(4) 评论(0) 推荐(0)
摘要:如何解决一堆向量的问题?Self-attention接CNN 如何解决一堆向量的问题? 输入 一个单词一个编码,一句话是一堆向量 声音信号是一堆向量 一个图也是一堆向量 输出 输入多少,输出多少(Sequence labeling) 输入很多,输出一个 输入很多,但不知道输出多少,让机器自己决定 输入多少,输出多少(Sequence labeling 阅读全文
posted @ 2025-10-27 15:40 -一叶知秋- 阅读(3) 评论(0) 推荐(0)
摘要:CNNCNN = Convolutional Neural Network(卷积神经网络) 👉 一种专门用于处理具有网格结构数据(例如图像)的深度学习模型。 核心思想是通过卷积层(Convolution)自动提取特征,而不是人工设计特征。 🔹 基本结构: 输入层:输入图像(如 28×28×3)。 卷积 阅读全文
posted @ 2025-10-24 16:26 -一叶知秋- 阅读(17) 评论(0) 推荐(0)
摘要:分类器案例模型复杂程度 一、常见衡量指标 参数数量(Number of Parameters) 模型包含的可学习参数越多,复杂度越高。 例如: 线性回归:参数个数 = 特征维数 + 1 深度神经网络:每层权重矩阵大小 × 层数 例子:ResNet-18(约1100万参数) vs. GPT-3(1750亿参数) 阅读全文
posted @ 2025-10-24 12:30 -一叶知秋- 阅读(7) 评论(0) 推荐(0)
摘要:分类概念“机器学习分类”(Machine Learning Classification)是机器学习中的一个监督学习任务,它的目标是让模型根据输入数据预测所属的类别(class)或标签(label)。简单来说,就是“根据已知样本的经验,判断新样本属于哪一类”。 🧠 一、分类的基本概念 概念 说明 输入(F 阅读全文
posted @ 2025-10-23 11:50 -一叶知秋- 阅读(11) 评论(0) 推荐(0)
摘要:Adaptive Learning Rate(自适应学习率) Adaptive Learning Rate(自适应学习率) 是指在模型训练过程中,学习率会根据参数更新的反馈自动调整,而不是使用一个固定值。其核心思想是: 👉 不同参数或不同训练阶段,最优的学习率应该不同。 当 Loss 不在下降,G 阅读全文
posted @ 2025-10-20 21:20 -一叶知秋- 阅读(9) 评论(0) 推荐(0)
摘要:optimization失败解决办法三个临界点 一、critical point(临界点 / 驻点) 在多元函数 $f(x1,x2,…,xn$)中, 临界点(critical point) 是指: $$∇f(x)=0$$ 也就是所有偏导数都为 0 的点。 👉 这些点可能是: 局部极小值点(local minimum) 局部极大值点( 阅读全文
posted @ 2025-10-10 14:40 -一叶知秋- 阅读(14) 评论(0) 推荐(0)
摘要:模型训练技巧Model Bias(模型偏差) Bias(偏差) 是机器学习里衡量“模型预测与真实值平均偏离程度”的指标。 它反映模型对目标函数的逼近能力。 Optimization(优化) 在一堆可能的方案中,找到“最好”的那个。 在机器学习里,它的意思更具体: 通过调整模型参数,让损失函数(Loss)最小。 阅读全文
posted @ 2025-10-09 21:48 -一叶知秋- 阅读(13) 评论(0) 推荐(0)
摘要:深度学习概述复杂模型 S曲线 S曲线改变参数 加入更多的Features 例子 1、搭建模型 括号里的作用就是得出 r 蚂蚁线内的作用是将 r 通过sigmoid函数,得出 a 一个简单的写法 最后都乘以 c 加到一起在加 b 得出 y 线性代数表示 2、写 Loss 损失函数 梯度更新参数 update 和 阅读全文
posted @ 2025-10-09 18:49 -一叶知秋- 阅读(6) 评论(0) 推荐(0)
摘要:机器学习概述机器学习的任务 Regression:回归(预测) Classification:在多种选择中挑选最正确的 Loss损失函数 损失函数:衡量 模型预测值 和 真实标签 差距的函数。 模型构建过程 阅读全文
posted @ 2025-09-29 17:00 -一叶知秋- 阅读(5) 评论(0) 推荐(0)