1. 什么是Overfitting 我们希望神经网络模型能够找到数据集中的一般规律,从而帮助我们预测未知数据。这个过程是通过不断地迭代优化损失函数(也就是预测值和实际值的误差)而实现的。然而随着误差进一步缩小,模型的“走势”过于“贴合”我们的训练数据,对训练数据中的噪声也过于趋近,把这些噪声数据也学 ...
前言 深度学习已经彻底改变了模式识别,引入了一系列技术,包括计算机视觉、自然语言处理、自动语音识别。 要成功地应用深度学习,必须知道(1)如何抛出一个问题(2)建模的数学方法(3)将模型与数据拟合的算法(4)以及实现所有这些的工程技术。 这本书提供了一个全面的资源,包括文本、图表、数学和代码,都集中 ...
弃权学习(learning with abstention)主要是为了使分类器在学习过程中可能出现的误导性或者不正确的信息时(这常被称为“幻觉”),能够对做出预测进行弃权。目前,弃权学习的方法主要可以分为以下几种:基于置信度的方法(confidence-based methods)。这种方法在预训练... ...
在01 深度学习基础及前向神经网络中,我们在讲解前向传播时,向中间层加入了Relu激活函数。我们提到这是为了向模型中添加非线性特性,从而让模型具有更强的表达能力。本篇将继续研究一些常见的激活函数,以及他们不同的特性。 1. 什么是激活函数 我们看一个基本的神经网络模型: 其中输入的x1,x2,x3三 ...
在01 深度学习基础及前向传播中,我们已经搭建好了一个基础的三层神经网络架构,如图: 它由三个输入features:x1、x2、x3,一个输出:y,中间的hidden layer包含两个nodes,采用ReLU作为激活函数。 其前向传播的计算过程为: 已知的数据如下,输入矩阵x中,列向量对应每一个f ...
什么是深度学习 深度学习(deep learning)、机器学习(machine learning)、神经网络(neural network)以及人工智能(artificial intelligence),这几个概念在我们日常海量的信息来源中常常容易被混淆。我认为以下这幅图能够较为清晰地阐明它们之间 ...
squeeze() 和 unsqueeze()函数 torch.squeeze(A,N) torch.unsqueeze()函数的作用减少数组A指定位置N的维度,如果不指定位置参数N,如果数组A的维度为(1,1,3)那么执行 torch.squeeze(A,1) 后A的维度变为 (1,3),中间的维 ...
DeepSeek-R1 模型微调系列 DeepSeek-R1 模型微调系列一. 前言介绍本文内容:1.1 项目背景1.2 LoRA和 QLoRA 简介1.3 LLaMA 架构和 Qwen 架构LLaMA 架构Qwen 架构二. 环境准备2.1 Unsloth 安装(显卡版本-暂时不用)2.2 创建P ...
论文提出了Tree-hybrid MLP(T-MLP)方法,其核心思想是结合GBDT的特征选择和模型集成优势与DNN的高维特征空间和光滑优化特性,通过张量化GBDT特征门、DNN架构剪枝和反向传播协同训练MLP模型,以实现高效、有效的表数据预测。 ...
卷积神经网络CNN CNN原理 关于CNN的原理本文使用代码的方式来直观理解卷积中各个操作过程。 卷积 卷积层是CNN的核心组件,通过可学习的卷积核在输入特征图上进行滑动窗口操作。每个位置上,卷积核与输入进行逐元素乘积并求和,得到输出特征图上的一个值。多个卷积核并行工作可以提取不同的特征模式。卷积层 ...
高斯分布,也被称为正态分布,广泛应用于连续型随机变量分布的模型中。高斯分布可以从多个不同的角度来理解。例如,对于一个一元实值向量,使得熵取得最大值的是高斯分布。这个性质对于多元高斯分布也成立。当我们考虑多个随机变量之和的时候,也会产生高斯分布。观察式多元高斯分布的形式,考虑其中在指数位置上出现的二次... ...
13.向量的线性相关性&内积&范数&正交 13.1 向量组的线性相关性 13.1.1 定义 对于任意向量组\(A:a_1,a_2,a_3,...,a_n\),存在不全为0的数\(k_i(i=1,2,3,...,m)\),使: \[\tag{1} \sum_{i=1}^mk_i\cdot a_i=0 ...
12.矩阵的秩及相关性质 12.1 k阶子式 12.1.1 k阶子式示例 设存在以下矩阵: \[X_{mn}= \begin{bmatrix} x_{11} & x_{12} & x_{13} & ... & x_{1n}\\ x_{21} & x_{22} & x_{23} & ... & x_{ ...
11.三种初等矩阵及其性质 11.1 三种初等矩阵 设存在列向量A: \[A= \begin{bmatrix} a_1\\ a_2\\ a_3\\ a_4\\ ...\\ a_i\\ ...\\ a_j\\ ...\\ a_n \end{bmatrix} \]则以下\(X_1,X_2,X_3\)三种 ...
离散随机变量的二项分布和多项式分布,以及连续随机变量的高斯分布,这些都是参数分布(parmetric distribution)的具体例子。之所以被称为参数分布,是因为少量可调节的参数控制了整个概率分布。在频率派的观点中,我们通过最优化某些准则(例如似然函数)来确定参数的具体值。而在贝叶斯派的观点中... ...
10.矩阵的初等变换 10.1 矩阵初等变换的规则 对于任意存在第\(i,j\)两行、或第\(i,j\)两列的矩阵,满足以下初等变换规则: 10.1.1 对调 对调\(i,j\)两行,记为:\(r_i \leftrightarrow r_j\) 对调\(i,j\)两列,记为:\(c_i \leftr ...
9.矩阵的逆-分块矩阵 9.1 分块矩阵的加法 设矩阵\(A、B均为m\times n\)的矩阵,且A、B均按相同的方式划分为\(s \times t\)块,其中: \[A= \begin{bmatrix} A_{11} &...&A_{1t}\\ &...&\\ A_{s1} &...&A_{st ...
8.矩阵的逆 8.1 相关性质 性质1:若矩阵A可逆,则\(A^{-1}\)也可逆: \[(A^{-1})^{-1}=A \] 性质1的证明:\(A \cdot A^{-1}=E\) 性质2:若矩阵A可逆,则\(\lambda \cdot A\)也可逆: \[(\lambda \cdot A)^{- ...
7.矩阵的逆-定义和定理 7.1 逆矩阵的定义 对于n阶矩阵A,存在一个n阶矩阵B,使: \[AB=BA=E \]则称矩阵A是可逆的。 且B是A的逆矩阵,简称“逆阵”,记为: \[B=A^{-1} \]7.2 对逆矩阵的理解 若存在矩阵\(A_{n×n}\)、\(X_{n×1}\)、\(Y_{n×1 ...
6.矩阵的行列式-代数余子式 6.1 余子式和代数余子式 设存在n阶行列式\(|A|\),并存在\(|A|\)中的元素\(a_{ij}\) 则\(|A|\)中,除去元素\(a_{ij}\)所在的第\(i\)行和第\(j\)列所有元素后,剩下元素所形成的行列式称为\(a_{ij}\)的\(余子式\), ...