摘要: 结构化概率模型 结构化概率模型(Structured Probabilistic model),就是利用图论(graph theory)中的图来表示概率分布中相互之间作用的随机变量的关系。深度学习经常面对的问题是如何理解具有丰富结构的高维数据的问题,例如图片、语音、文本等等。除了经典的分类问题如图像 阅读全文
posted @ 2025-07-31 17:39 sky_darkeen 阅读(17) 评论(0) 推荐(0)
摘要: 表示学习 这一章聚焦表示学习(Representation Learning)及其应用,主要内容有无监督及有监督预训练的作用,迁移学习及分布式表示。机器学习的主要问题就是如何更合理高效的将特征表示出来。怎么判定某种表示更好呢,这需要具体问题具体分析,这通常依赖于后续的学习任务是否能够得益于这种表示。 阅读全文
posted @ 2025-07-31 17:36 sky_darkeen 阅读(43) 评论(0) 推荐(0)
摘要: 自编码器 自编码器(Autoencoder)是一种特定的神经网络结构,其目的是为了将输入信息映射到某个更低维度的空间,生成包含重要特征的编码code,这部分称为Encoder,可用函数 \(h=f(x)\) 表示, 然后再利用Decoder将code重构成为尽量能还原原输入的结果,用函数 \(r=g 阅读全文
posted @ 2025-07-31 17:30 sky_darkeen 阅读(98) 评论(0) 推荐(0)
摘要: 线性因子模型 线性因子 之前总结的方法大部分是在 有大量数据情况下的监督学习方法,而假如我们想减小数据量的要求,则需要一些无监督学习及半监督学习方法,虽然有很多无监督学习方法,但是目前还无法达到深度学习在监督学习问题中所达到的精度,这常常是由于我们需要解决的问题的维度过高或计算量过大造成的。 无监督 阅读全文
posted @ 2025-07-31 17:28 sky_darkeen 阅读(19) 评论(0) 推荐(0)
摘要: 深度学习应用简述 硬件 首先,深度学习的成功应用离不开硬件的发展。GPU由于其高内存带宽,非常适合需要存储很多参数、激活值及梯度值的神经网络,而且许多神经网络可以并行运算,GPU在这方面也优于CPU,而GPU相对于CPU有较低的时钟速度及处理复杂计算的劣势,由于大部分神经网络单元并不需要复杂逻辑运算 阅读全文
posted @ 2025-07-31 17:10 sky_darkeen 阅读(12) 评论(0) 推荐(0)
摘要: 循环神经网络 这一章主要介绍了循环神经网络(Recurrent neural network, 简称RNN),主要用来处理序列数据,比如一些文字序列或时序数据。对于这类数据,基本的前馈神经网络会对每一个输入的特征都训练一个单独的参数,而不能很好的进行参数的共享,而RNN就可以通过对不同时间点的特征共 阅读全文
posted @ 2025-07-31 17:08 sky_darkeen 阅读(14) 评论(0) 推荐(0)
摘要: 卷积神经网络 这一章主要介绍了卷积神经网络(convolutional neural network,简称CNN),它通常适用于具有网格状结构的数据,例如时序数据可看做是在特定时间间 隔上的一维网格,图像可以看做是像素构成的二维网格,医学成像如CT等为三维网格数据。 基本介绍 卷积神经网络,顾名思义 阅读全文
posted @ 2025-07-31 16:51 sky_darkeen 阅读(16) 评论(0) 推荐(0)
摘要: 批处理化 批处理化作为及其重要的优化技术,在此给出详细的笔记记录。 Batch Normalization(批处理化) Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性。花书对于BN的介绍较为模糊,是从抽象的数学角度进行解释的,我认为其并没有写出BN 阅读全文
posted @ 2025-07-31 16:49 sky_darkeen 阅读(14) 评论(0) 推荐(0)
摘要: 批量梯度下降 本文主要介绍了在深度学习优化中遇到的问题以及解决方法,在此简要地记录核心的部分。 Stochastic Gradient Descent(随机梯度下降) 在数值计算中,书本介绍了Gradient Descent算法,但是在实际使用中,梯度下降计算梯度时需要利用所有的数据样本,其优点是这 阅读全文
posted @ 2025-07-31 16:45 sky_darkeen 阅读(25) 评论(0) 推荐(0)
摘要: 正则化 总体来说,一部分正则化方法使给模型施加额外的限制条件,例如限制参数值范围,有些会在目标函数中添加一些额外惩罚项,本质上也是希望限制参数值。有的时候,这些限制条件或惩罚项代表了特定的先验经验,有的时候是希望避免模型过于复杂。正则化常常会增加一些bias但同时会减少variance,好的正则化方 阅读全文
posted @ 2025-07-31 16:36 sky_darkeen 阅读(31) 评论(0) 推荐(0)
摘要: 前馈神经网络 简介 前馈神经网络 (Deep feedforward network) 可以说是深度学习最核心的模型之一。前馈神经网络的目的是对于输入 \(x\) ,假设我们要模拟从输入到输出的真实函数 \(f^*\) ,神经网络想要找到这样的映射 \(y=f(x ; \theta)\) 和合适的参 阅读全文
posted @ 2025-07-31 16:22 sky_darkeen 阅读(54) 评论(0) 推荐(0)
摘要: 机器学习基础 模型容量,欠拟合,过拟合参数化 训练机器学习模型的目的不仅仅是可以描述已有的数据,而且是对末知的新数据也可以做出较好的推测,这种推广到新数据的能力称作泛化(generalization)。我们称在训练集上的误差为训练误差 (training error),而在新的数据上的误差的期望称为 阅读全文
posted @ 2025-07-31 16:15 sky_darkeen 阅读(8) 评论(0) 推荐(0)
摘要: 十一章 方差和回归分析 该笔记基于书本《统计推断》,笔记省略部分均可在该书上找到对应的详细解释。 11.1 前言 方差分析(常简记为 ANOVA) 是得到最广泛应用的统计技术之一. ANOVA 的基本思想, 即变异的分解, 是试验统计学的一个重要思想. 要说明的是, 方差分析实际上并不关心方差的分析 阅读全文
posted @ 2025-07-31 15:56 sky_darkeen 阅读(29) 评论(0) 推荐(0)
摘要: 第十章 相合估计 该笔记基于书本《统计推断》,笔记省略部分均可在该书上找到对应的详细解释。 在之前的几章中,主要讨论的内容在于如何求取点估计值以及检验区间,同时通过检验区间的反转来构建置信区间的方法。但是对于一些统计量,其分布较为特殊,没有办法给出具体的分布函数。此时,我们很难对该统计量进行统计推断 阅读全文
posted @ 2025-07-31 15:55 sky_darkeen 阅读(53) 评论(0) 推荐(0)
摘要: 第九章 区间估计 该笔记基于书本《统计推断》,笔记省略部分均可在该书上找到对应的详细解释。 本章将从第八章的假设检验中的LRT入手,再到给出置信区间的自然求解公式。这一个过程符合直觉,且与6,7,8,9章的知识紧密结合。 9.1 前言 ​ 在第七章中我们学习了如何求解参数 \(\theta\) 的点 阅读全文
posted @ 2025-07-31 15:54 sky_darkeen 阅读(42) 评论(0) 推荐(0)