11 2025 档案
摘要:1. 权重矩阵初始化 权重矩阵初始化是神经网络训练中至关重要的一步,它直接影响模型的收敛速度和性能。不恰当的初始化可能导致梯度消失、梯度爆炸或训练停滞。 以下是常见的几种权重矩阵初始化方法: 零初始化 (Zero Initialization): 将所有权重都设置为零。 问题:这会导致对称性问题(s
阅读全文
摘要:1. 数据集划分 在标准的机器学习流程中,数据集通常被划分为以下几个主要部分: 1). 训练集 (Training Set) 作用:用于训练模型,即通过学习数据中的特征和模式来优化模型的内部参数。 用途:模型接触的绝大部分数据都在这里,是模型“学习”的基础。 2). 验证集 (Validation
阅读全文
摘要:Softplus函数是一种在数学和机器学习中常用的激活函数,它被视为ReLU(线性整流单元)函数的一个平滑近似。 1. Softplus函数定义与公式 Softplus函数的定义公式为自然对数与指数函数的组合: 𝑓(𝑥)=ln(1+𝑒𝑥) 其中,ln代表自然对数,𝑒是自然常数。该函数的输出
阅读全文
摘要:参数调优(Hyperparameter Tuning 或 Hyperparameter Optimization, HPO)是机器学习和深度学习模型开发过程中至关重要的一步。它指的是选择一组最优的超参数(Hyperparameters),以使得模型在特定任务上的表现(通常由验证集上的性能指标如准确率
阅读全文
摘要:混淆矩阵(Confusion Matrix),也称为误差矩阵,是评估分类模型性能的一种重要工具。它以表格形式直观展示了模型在预测时,对不同类别样本正确分类和错误分类的情况。 理解混淆矩阵是分析模型在样本不平衡、误报率、漏报率等问题上表现的基础。 混淆矩阵的结构 对于一个二分类问题(例如:检测疾病、判
阅读全文
摘要:异或门问题的难点在于其非线性可分性。 1. 为什么单层感知机无法处理 XOR? 如果我们尝试用一个只有输入层和输出层的单层感知机来解决 XOR 问题,会遇到困难。 单层感知机只能学习线性可分的决策边界。这意味着它只能用一条直线(或超平面)将不同类别的样本分开。 将 XOR 的数据点画在坐标系上:(0
阅读全文
摘要:矩估计(Method of Moments, MoM)是统计学中一种用于估计概率分布参数的经典方法。它是一种直观且相对简单的参数估计方法,由英国统计学家卡尔·皮尔逊(Karl Pearson)在 1894 年提出。 1. 矩估计核心思想 矩估计的核心思想是将样本的统计特征(样本矩)与总体的理论特征(
阅读全文
摘要:分类样本不平衡问题(Class Imbalance Problem)是机器学习中一个非常普遍且重要的问题。它指的是在分类数据集中,不同类别的样本数量差异巨大,例如,在信用卡欺诈检测中,正常交易样本可能有 99.8%,而欺诈交易样本可能只有 0.2%。 在这种情况下,大多数标准机器学习算法倾向于偏向多
阅读全文
摘要:1. 学习率 梯度下降的学习率(Learning Rate)是深度学习中最核心、最关键的超参数之一。它决定了模型在每一次迭代中沿着损失函数负梯度方向前进的“步子”有多大。 学习率的目标是在收敛速度和训练稳定性之间找到一个平衡点。 收敛速度:学习率越大,参数更新越快,理论上模型收敛到最优解所需的时间越
阅读全文
摘要:Drop-out 是一种专门针对神经网络设计的正则化技术,亦称随机失活,它是一种非常有效且广泛使用的防止过拟合的方法。它由 Geoffrey Hinton 及其团队在 2012 年提出。 1. 核心思想 Drop-out 的核心思想非常直观:在训练过程中,随机地“关闭”(失活)一部分神经元。 想象一
阅读全文
摘要:梯度检查(Gradient Checking)中使用的双边逼近(Two-sided Approximation)方法,也称为中心差分法(Central Difference Method)。 1. 梯度检查的目的 在深度学习中,我们使用反向传播算法(Backpropagation)来计算损失函数关于
阅读全文
摘要:泰勒公式(Taylor's Formula)是一种利用函数在某一点的导数值来构造多项式,以近似该函数在该点附近取值的数学工具。它为足够光滑的函数提供了一种多项式展开形式,是微积分中的核心概念之一。 1. 核心概念 泰勒公式的直观思想是:如果已知一个函数𝑓(𝑥)在某一点 𝑎 的值以及其各阶导数值
阅读全文
摘要:主子式(Principal Minor)是线性代数中一个与矩阵相关的重要概念。 1. 主子式定义 对于一个𝑛×𝑛的方阵𝐀,它的𝑘阶主子式是指从矩阵中选取相同的行号和列号构成的一个𝑘×𝑘子矩阵的行列式。换句话说,如果你选择保留原矩阵的第𝑖1,𝑖2,…,𝑖𝑘行,同时也要保留原矩阵的第
阅读全文
摘要:半正定性(Positive Semi-definiteness)是线性代数中的一个数学性质,主要用于描述实对称矩阵(或复数域上的 Hermitian 矩阵)。 1. 定义 对于一个实对称矩阵𝐀(𝑛×𝑛维),如果对于任意非零的实向量 𝐱(𝑛×1维),以下二次型(Quadratic Form)
阅读全文
摘要:协方差矩阵(Covariance Matrix)是统计学中用于描述多个随机变量之间关系和变异性的重要工具。它是一个对称矩阵,汇总了所有变量对的方差和协方差信息。 1. 定义和作用 方差(Variance):度量单个变量自身的波动程度,位于矩阵的对角线上。 协方差(Covariance):度量两个不同
阅读全文
摘要:1. 总平方和SST 总平方和(Total Sum of Squares,SST),也称为总离差平方和,是统计学和回归分析中的一个核心概念。 1.1 定义和作用 总平方和度量了因变量(𝑦)所有观测值相对于其平均值 ȳ(y bar)的总变异(Total Variation)或总波动性。它反映了数据
阅读全文
摘要:点积(Dot Product),又称数量积(Scalar Product)或内积(Inner Product),是线性代数和向量分析中的一个基本运算,它接收两个向量作为输入,并产生一个单一的标量(Scalar,即一个数)作为输出。 点积具有重要的代数和几何意义。 1. 代数定义(如何计算) 2. 几
阅读全文
摘要:R-squared 分数(R² Score),也称为决定系数(Coefficient of Determination)或简称R方,是回归分析中用来评估模型拟合优度的一个重要统计指标。 它衡量了因变量(Y)的变异中可以被自变量(X)解释的比例。简单来说,R-squared 分数告诉您回归模型对数据变
阅读全文
摘要:样本特征数据的标准化(Feature Scaling 或 Standardization)是数据预处理的关键步骤之一,尤其在线性回归、逻辑回归、神经网络、支持向量机等依赖距离度量的算法中至关重要。 标准化可以通过多种方法实现,最常用的是 Z-Score 标准化 和归一化(Min-Max Scalin
阅读全文
摘要:1. 线性回归问题 最小二乘法,梯度下降法,神经网络法均能应用于线性回归问题。在实践中,对于标准的线性回归问题,人们通常首选最小二乘法,因为它能直接给出精确解且速度快;对于大数据集,梯度下降法是更好的选择。
阅读全文
摘要:高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中。法国科学家勒让德于1806年独立发明“最小二乘法”,但因不为世人所知而默默无闻。勒让德曾与高斯为谁最早创立最小二乘法原理发生争执。 最小二乘法(Least Squares Method,又称最小平方法)是一种统计学和数学优化技术,旨
阅读全文
摘要:ONNX(Open Neural Network Exchange,开放神经网络交换)模型文件是一种开放格式,用于表示机器学习和深度学习模型。它充当不同 AI 框架之间的通用“桥梁”或中间表示层。 1. 主要用途和特点 互操作性(Interoperability):ONNX 的核心目标是解决不同深度
阅读全文
摘要:1. 基本概念 输入 input (x1,x2,x3)是外界输入信号,一般是一个训练数据样本的多个属性,比如,我们要预测一套房子的价格,那么在房屋价格数据样本中,x1可能代表了面积,x2可能代表地理位置, x3可能代表朝向。另外一个例子是, 分别代表了(红,绿,蓝)三种颜色,而此神经元用于识别输入的
阅读全文
摘要:梯度下降(Gradient Descent)是优化算法的核心,是机器学习和深度学习中最基础、最重要的算法之一。 它的主要目标是找到一个函数的最小值,通常用于最小化模型的损失函数(Loss Function),从而找到使模型预测最准确的最佳参数(权重和偏置)。 1. 核心原理:下山比喻 想象你被困在浓
阅读全文
摘要:平均绝对误差(Mean Absolute Error,简称 MAE)是回归模型中最常用的评估指标和损失函数之一。它衡量模型预测值与实际观测值之间的平均绝对差异,反映了预测误差的平均大小。 1. 定义与公式 2.主要特点 直观易懂:MAE 的值与原始数据具有相同的量纲,可以直接解释为平均的误差大小。
阅读全文
摘要:1. MSE 是非凸函数,难以优化 对于分类问题(尤其是多分类问题),当使用 Sigmoid 或 Softmax 作为激活函数时,如果同时使用均方误差(MSE)作为损失函数,会导致整体的损失函数曲面是非凸的(Non-convex)。 问题:非凸函数意味着在使用梯度下降进行优化时,很容易陷入局部最优解
阅读全文
摘要:Focal Loss(焦点损失函数)是一种在标准交叉熵损失函数基础上改进的损失函数,由 Facebook AI Research(FAIR)的何恺明团队于 2017 年在论文《Focal Loss for Dense Object Detection》中提出。 它被设计出来主要用于解决类别极度不平衡
阅读全文
摘要:logit 的历史由来 在 20 世纪 30 年代和 40 年代,许多人试图将线性回归应用于预测概率的问题。然而,线性回归产生的输出范围是从负无穷到正无穷,而我们期望的概率输出范围是 0 到 1。实现这一目标的一个方法是将 0 到 1 的概率映射到负无穷到正无穷的范围,然后像往常一样使用线性回归。
阅读全文
摘要:Softmax 激活函数(Softmax Activation Function)是神经网络中一种特殊的激活函数,主要用于解决多类别分类问题。 它位于神经网络的输出层,作用是将网络的原始输出分数(称为 logits)转换成一个表示各类别的概率分布。 1. 核心功能与原理 Softmax 函数接收一个
阅读全文
摘要:Tanh 激活函数,即双曲正切函数(Hyperbolic Tangent Function),是神经网络中一种常见的激活函数。它与 Sigmoid 函数形状相似(都是 S 形曲线),但其输出范围不同,且具有零中心化的特点。 1. 数学表达式 Tanh 函数的数学公式如下: tanh(𝑥)=(𝑒�
阅读全文
摘要:Sigmoid 激活函数,也称为逻辑函数(Logistic Function),是人工神经网络历史上一个非常重要的激活函数。它因其独特的“S”形曲线而得名,能够将任何实数值输入压缩到一个介于 0 和 1 之间的范围。 1. 数学表达式 Sigmoid 函数的数学公式如下:𝜎(𝑥)=1 / ( 1
阅读全文
摘要:线性整流单元(Rectified Linear Unit,ReLU) 是深度学习中最广泛使用的激活函数之一。它因其简单、高效的特性,成为大多数现代神经网络(特别是卷积神经网络 CNN)隐藏层的默认选择。 1. 原理与定义 ReLU 激活函数的作用是给神经网络引入非线性,使其能够学习和逼近复杂的数据模
阅读全文
摘要:合页损失函数(Hinge Loss),也称铰链损失或最大间隔损失(Max-Margin Loss),是一种主要用于最大间隔分类(如支持向量机 SVM)的损失函数。 1. 核心思想 合页损失函数的设计目标是不仅要将数据点正确分类,还要确保分类的置信度足够高,即样本点要与决策边界保持足够的“间隔”(Ma
阅读全文
摘要:激活函数(Activation Function)与损失函数(Loss Function)在神经网络中扮演着完全不同的角色,它们位于模型的不同位置,服务于不同的目的。 核心区别总结如下: 特性激活函数 (Activation Function)损失函数 (Loss Function) 位置 位于神经
阅读全文
摘要:反向传播算法(Backpropagation,简称BP算法)是“误差反向传播”的简称,是一种用于训练人工神经网络的常见方法。它的基本思想是通过计算神经网络中损失函数对各参数的梯度,结合优化方法(如梯度下降法)来更新参数,从而降低损失函数。反向传播算法的出现是神经网络发展的重大突破,许多深度学习训练方
阅读全文
摘要:KL散度(Kullback-Leibler divergence,简称 KLD),又称相对熵(Relative Entropy)或信息散度。在信息论中,Kullback-Leibler(KL)散度是用于衡量两个概率分布之间的差异性的。在分类问题中,我们有两个不同的概率分布:第一个分布对应着我们真实的
阅读全文
摘要:自动编码器(Autoencoder, AE)是一种人工神经网络,主要用于无监督学习,目标是学习输入数据的高效表示(编码)。其核心思想是通过尝试重构(reconstruct)原始输入数据来实现自我学习。 1. 基本结构与原理 自动编码器由两部分组成:编码器(Encoder)和解码器(Decoder)。
阅读全文
摘要:线性判别分析(Linear Discriminant Analysis, LDA)是一种经典的有监督学习方法。它既可以用于分类,也可以作为一种数据降维技术,其核心目标是找到一个最佳的线性变换(投影方向),使得数据在新的低维空间中具有最佳的可分性。 1. LDA核心原理 最大化类间分离,最小化类内差异
阅读全文
摘要:高斯分布(Gāosī fēnbù),也称正态分布(zhèngtài fēnbù,英语:Normal distribution),是概率论和统计学中最重要且最常见的概率分布之一。其概率密度函数曲线通常呈钟形(bell-shaped curve),关于均值对称,且大多数数据点集中在中心位置。 主要特点
阅读全文
浙公网安备 33010602011771号