摘要:
跳转链接 百度 必应 机场 茶杯狐 音乐库 音频格式转换 百度网盘 阿里云盘 WPS B站 腾讯文档 网易云 酷狗 天翼云盘 网络空间测绘 Gitee GitHub HelloGitHub 诗词 反向词典 深言达意 Spring源码 网课刷课平台 proxifler-本地流量代理 注册码 idm-下 阅读全文
跳转链接 百度 必应 机场 茶杯狐 音乐库 音频格式转换 百度网盘 阿里云盘 WPS B站 腾讯文档 网易云 酷狗 天翼云盘 网络空间测绘 Gitee GitHub HelloGitHub 诗词 反向词典 深言达意 Spring源码 网课刷课平台 proxifler-本地流量代理 注册码 idm-下 阅读全文
posted @ 2025-05-12 09:53
-一叶知秋-
阅读(17)
评论(0)
推荐(0)

自注意力(Self-Attention)的计算复杂度问题 Local Attention 🌟 一、为什么需要 Local Attention? 先回忆一下普通的 Self-Attention: 每个词都要对序列中 所有其他词 计算注意力权重。 如果句子长度是 n, 则计算量是 \(O(n^2)\)
Sequence2Sequence Sequence-to-Sequence(简称 Seq2Seq) 是一种用于序列到序列(Sequence → Sequence)映射任务的深度学习模型结构。 它最早由 Google 在 2014 年提出,用于 机器翻译(Machine Translation),后
有些参数改变可能梯度很平滑,有些参数改变可能梯度很陡峭 怎么改变这个,使每个参数改变尽可能梯度都一样呢 特征归一化 对于每个维度i:均值:(\(m_i\))标准差:(\(\sigma_i\)) \(\widetilde{x}_i^r \leftarrow \frac{x_i^r - m_i}{\si
接CNN 如何解决一堆向量的问题? 输入 一个单词一个编码,一句话是一堆向量 声音信号是一堆向量 一个图也是一堆向量 输出 输入多少,输出多少(Sequence labeling) 输入很多,输出一个 输入很多,但不知道输出多少,让机器自己决定 输入多少,输出多少(Sequence labeling
CNN = Convolutional Neural Network(卷积神经网络) 👉 一种专门用于处理具有网格结构数据(例如图像)的深度学习模型。 核心思想是通过卷积层(Convolution)自动提取特征,而不是人工设计特征。 🔹 基本结构: 输入层:输入图像(如 28×28×3)。 卷积
1.1 公式表达 显示 代码 行内公式 $数学公式$ 独立公式 $$数学公式$$ 1.2 上下标 显示 代码 $x^2$ $x^2$ $x_2$ $x_2$ 1.3 括号 显示 代码 $\underbrace{yyyy}_{ \text{xxx} }$ $\underbrace{yyyy}_{ \t
模型复杂程度 一、常见衡量指标 参数数量(Number of Parameters) 模型包含的可学习参数越多,复杂度越高。 例如: 线性回归:参数个数 = 特征维数 + 1 深度神经网络:每层权重矩阵大小 × 层数 例子:ResNet-18(约1100万参数) vs. GPT-3(1750亿参数)
“机器学习分类”(Machine Learning Classification)是机器学习中的一个监督学习任务,它的目标是让模型根据输入数据预测所属的类别(class)或标签(label)。简单来说,就是“根据已知样本的经验,判断新样本属于哪一类”。 🧠 一、分类的基本概念 概念 说明 输入(F
三个临界点 一、critical point(临界点 / 驻点) 在多元函数 $f(x1,x2,…,xn$)中, 临界点(critical point) 是指: $$∇f(x)=0$$ 也就是所有偏导数都为 0 的点。 👉 这些点可能是: 局部极小值点(local minimum) 局部极大值点(
浙公网安备 33010602011771号