吴恩达深度学习 - 随笔分类 - 钰见梵星

Transformer网络

摘要：Transformer网络传统的序列模型（如RNN、GRU和LSTM）在处理长序列时存在渐变消失问题，导致难以捕捉长距离依赖。这些模型采用逐步处理方式，每次只能处理一个单词或记号，因此存在信息流瓶颈。随着模型复杂性的增加（例如，从RNN到GRU，再到LSTM），处理复杂性也显著增加。 Transf 阅读全文

posted @ 2025-02-11 23:27 钰见梵星阅读(162) 评论(0) 推荐(0)

序列模型和注意力机制

摘要：序列模型和注意力机制 Seq2Seq模型主要用于处理输入序列到输出序列的映射问题，常用于机器翻译、语音识别等。主要由编码器(Encoder)和解码器(Decoder)构成。编码器输入序列后生成一个固定长度的向量表示隐藏状态，通常采用RNN结构。输入序列的每个单词 \(x^{<t>}\) 并更新隐藏阅读全文

posted @ 2025-02-11 16:50 钰见梵星阅读(62) 评论(0) 推荐(0)

自然语言处理与词嵌入

摘要：自然语言处理与词嵌入传统的词汇使用词汇表(Vocabulary)来存储，并用one-hot向量表示，向量长度等于词汇表大小，每个单词对应一个独特的索引，只有索引处的值为1，其余全部为0。如果 “max” 在词汇表里的索引是5391，那么对应的one-hot向量为 \(O_{5391}\)。但是这阅读全文

posted @ 2025-02-09 16:31 钰见梵星阅读(76) 评论(0) 推荐(0)

循环神经网络

摘要：循环神经网络序列数据输入和输出的长度可能不同，并且每个元素都有时间依赖性，传统的前馈神经网络无法有效建模序列信息，也无法共享特征。典型的序列建模任务：语音识别：输入一段语音音频，输出对应的文本记录，输入输出可能长度不同。音乐生成：输入整数代表风格或者前几个音符，输出生成的音乐序列，仅输出是序阅读全文

posted @ 2025-02-07 22:19 钰见梵星阅读(65) 评论(0) 推荐(0)

人脸识别和神经风格转换

摘要：人脸识别和神经风格转换人脸识别人脸验证(Verification)：验证输入图像是否属于某个特定身份，属于一对一问题。人脸识别(Recognition)：一对多问题，从大量数据中找到匹配的人脸。在很多人脸识别应用中，系统需要通过单一样本识别某人，而非多个样本，这就属于 One-shot Le 阅读全文

posted @ 2025-01-26 11:33 钰见梵星阅读(56) 评论(0) 推荐(0)

目标检测

摘要：目标检测图片分类问题是判断图片中是否存在特定的对象。图片定位分类问题除了判断图片是否包含特定对象外，还要定位对象在图像中的位置，并使用边界框（bounding box）标记出该位置。边界框的四个参数为\(b_{x}\)（中心点横坐标）、\(b_{y}\)（中心点纵坐标）、\(b_{h}\)（高阅读全文

posted @ 2025-01-24 23:02 钰见梵星阅读(46) 评论(0) 推荐(0)

深度卷积网络

摘要：深度卷积网络 LeNet-5是一种开创性的神经网络结构，针对手写数字识别的灰度图像，网络架构如下图所示： LeNet输入是 \(32 \times 32 \times 1\) 维的手写数字识别的灰度图像。卷积层 1：6 个 \(5 \times 5\) 卷积核，步幅 1，无 Padding，输出阅读全文

posted @ 2025-01-18 22:06 钰见梵星阅读(46) 评论(0) 推荐(0)

卷积神经网络

摘要：卷积神经网络随着输入数据规模的增大，计算机视觉的处理难度也大幅增加。 \(64 \times 64 \times 3\) 的图片特征向量维度为12288，而 \(1000 \times 1000 \times 3\) 的图片数据量达到了300万。随着数据维度的增加，神经网络的参数量也会急剧上升。如阅读全文

posted @ 2025-01-09 15:45 钰见梵星阅读(172) 评论(0) 推荐(0)

机器学习策略Ⅱ

摘要：机器学习策略Ⅱ 误差分析在训练算法的时候，可以通过人工检查算法在开发集或测试集上的错误，分析错误类型，来识别值得优先解决的问题。这样子可以帮助开发者确定哪些方向有最大的性能改进空间，避免将大量时间浪费在影响较小的错误类型上。基本流程是首先从开发集或测试集中选择100个错误样本进行分析，人工标记每阅读全文

posted @ 2025-01-02 22:22 钰见梵星阅读(73) 评论(0) 推荐(0)

机器学习策略Ⅰ

摘要：机器学习策略Ⅰ 在构建一个好的监督学习系统时，通常需要确保以下四个方面：系统需要在训练集上能够很好地拟合数据，达到某种可接受的性能水平（如接近人类水平）。如果训练集表现不好，可以使用更大的模型（深度神经网络）、改进优化算法（Adam）、增加训练时间或数据量。系统还需要在验证集上表现良好，避免过拟阅读全文

posted @ 2024-11-30 21:49 钰见梵星阅读(132) 评论(0) 推荐(0)

超参数调整、Batch归一化和程序框架

摘要：超参数调整、Batch归一化和程序框架超参数调整在深度学习中，有许多超参数需要调整，不同超参数的重要性有所不同，可分为以下优先级：第一优先级是学习率 \(\alpha\) 。第二优先级是动量梯度下降参数 \(\beta\) ，隐藏层神经元数量，以及mini-batch大小。第三个优先级是隐阅读全文

posted @ 2024-11-25 22:08 钰见梵星阅读(218) 评论(0) 推荐(0)

优化算法

摘要：优化算法 Batch梯度下降法每次对整个训练集进行计算，这在数据集很大时计算效率低下，因为每次更新权重前必须先处理整个训练集。可以将训练集划分为多个小子集，称为mini-batch。每次只使用一个mini-batch来计算梯度并更新参数。取出 \(x^{(1)}\) 到 \(x^{(1000)}\ 阅读全文

posted @ 2024-11-21 15:35 钰见梵星阅读(34) 评论(0) 推荐(0)

深度学习的实践层面

摘要：深度学习的实践层面设计机器学习应用在训练神经网络时，超参数选择是一个高度迭代的过程。我们通常从一个初步的模型框架开始，进行编码、运行和测试，通过不断调整优化模型。数据集一般划分为三部分：训练集、验证集和测试集。常见的比例是60%用于训练，20%用于验证，20%用于测试。然而，当数据量非常大时，阅读全文

posted @ 2024-11-19 23:26 钰见梵星阅读(97) 评论(0) 推荐(0)

深度神经网络

摘要：深度神经网络这是一个深度神经网络用 \(L=4\) 表示神经网络层数，用 \(n^{[l]}\) 表示第 \(l\) 层神经元数量，有 \(n^{[1]}=n^{[2]}=5\)， \(n^{[3]}=3\)， \(n^{[4]}=n^{[L]}=1\)， \(n^{[0]}=n_x=3\)。阅读全文

posted @ 2024-11-14 16:21 钰见梵星阅读(39) 评论(0) 推荐(0)

浅层神经网络

摘要：浅层神经网络浅层神经网络通常指包含一个隐藏层的神经网络。这个网络由输入层、隐藏层和输出层构成：输入层：输入层负责接收网络的输入特征，通常表示为列向量 \(x^T = [x_1, x_2, x_3]\)，每个输入特征 \(x_i\) 代表样本的一个属性。输入特征的激活值 \(a^{[0]}\) 就阅读全文

posted @ 2024-11-12 20:26 钰见梵星阅读(112) 评论(0) 推荐(0)

神经网络基础知识

摘要：神经网络基础知识二分类任务(Binary Classification) 在二分类问题中，目标是将输入（如图片、文本或其他数据）分为两类之一，通常使用标签0和1来表示不同的类别。以图像识别为例，假设我们需要判断一张图片中是否包含猫。我们可以将包含猫的图片标记为标签1，不包含猫的图片标记为标签0。模阅读全文

posted @ 2024-11-08 18:08 钰见梵星阅读(70) 评论(0) 推荐(0)

深度学习引言

摘要：深度学习引言假定想要根据房屋面积拟合一个预测房价的函数，我们令房屋面积作为神经网络的输入\(x\)，通过一个神经元进行预测，最终输出价格\(y\)。这就是最简单的单神经网络（感知机），神经元对输入进行加权求和，加上偏置，然后通过一个激活函数得到输出。 \[y=f(wx+b) \]为了捕捉更复杂的非阅读全文

posted @ 2024-11-06 14:23 钰见梵星阅读(137) 评论(0) 推荐(0)

钰见梵星

我总是躲在梦与季节的深处，听花与黑夜唱尽梦魇，唱尽繁华，唱断所有记忆的来路。

随笔分类 - 吴恩达深度学习

公告