10 2025 档案
摘要:主成分分析(Principal Component Analysis,简称PCA)是一种广泛使用的无监督学习算法,主要用于数据降维(Dimensionality Reduction)。 PCA 的核心目标是通过线性变换,将原始数据投影到一个新的坐标系统中。在这个新系统中,数据的大部分方差(信息量)被
阅读全文
摘要:1. 边缘熵、联合熵及条件熵的概念 联合熵(Joint Entropy)是信息论中的一个重要概念,它衡量的是两个或多个随机变量作为一个整体的平均不确定性。 边缘熵(Marginal Entropy)是信息论中的一个概念,它指的是在多变量概率分布中,仅考虑单个随机变量时的熵值。 这编辑框不支持特殊数学
阅读全文
摘要:互信息(Mutual Information,MI)是信息论中的一个核心概念,用于衡量两个随机变量之间相互依赖性的程度。简单来说,它告诉我们,了解一个变量的多少信息能帮助我们预测另一个变量。 1. 互信息的概念 互信息可以被看作是一个变量中包含的另一个变量的信息量。 如果两个变量完全独立:互信息为零
阅读全文
摘要:卡方检验(Chi-squared test,记作𝜒2检验)是一种常用的统计假设检验方法,在机器学习中主要用于特征选择,特别是处理分类变量时。 1. 卡方检验的核心目的 卡方检验的核心目的是判断两个分类变量之间是否相互独立(即没有关联)。 原假设(𝐻0):两个变量是相互独立的,观察频数与期望频数没
阅读全文
摘要:切比雪夫距离公式的推导主要依赖于𝐿𝑝范数(即明可夫斯基距离)在𝑝→∞时的极限性质。
阅读全文
摘要:L2 正则化,也称为 岭回归(Ridge Regression),是一种在机器学习中用于防止过拟合的正则化技术。它通过在模型的损失函数中添加一个惩罚项来实现,该惩罚项是模型系数的平方和。 1. L2 正则化的工作原理 L2 正则化的核心思想是限制模型系数(权重)的平方和,使其向零收缩,但通常不会精确
阅读全文
摘要:L1正则化,也称为Lasso 回归(Least Absolute Shrinkage and Selection Operator),是一种在机器学习中用于防止过拟合和进行特征选择的常用技术。它通过在模型的损失函数中添加一个惩罚项来实现这一目的。 1. L1 正则化的工作原理 L1正则化的核心思想是
阅读全文
摘要:明可夫斯基距离(Minkowski distance)是一种在多维空间中度量两点之间距离的广义度量。它以一个可调节的参数来控制距离的计算方式,从而涵盖了多种常见的距离度量,如欧几里得距离和曼哈顿距离,使其在机器学习和数据分析中非常灵活。
阅读全文
摘要:降维方法主要分为特征选择(Feature Selection)和特征提取(Feature Extraction)两大类。 1. 特征选择(Feature Selection) 特征选择是从原始数据集中筛选出最有用的特征子集,而不改变这些特征本身。它的目标是移除不相关、冗余或噪声的特征,以提高模型的效
阅读全文
摘要:提升算法(Boosting algorithms)是一类强大的集成学习(Ensemble Learning)方法,其核心思想是按顺序训练一系列的“弱学习器”(Weak Learners,通常是简单的模型,如浅层决策树),每一个弱学习器都会在前一个弱学习器的基础上进行调整,以纠正其犯下的错误。通过这种
阅读全文
摘要:在机器学习中,“噪声”是指数据中存在的、不提供有效信息、甚至会干扰模型学习和泛化能力的任何随机或无关的数据。我们可以用“数据 = 信号 + 噪声”来理解,其中“信号”是数据中真正的潜在模式和规律,而“噪声”则是干扰这个模式的随机波动。 如果模型过度关注这些随机波动,它就会学到错误的模式,导致在训练集
阅读全文
摘要:K-means(K-均值)聚类算法是一种无监督学习算法。它的主要目标是将一组未标记的数据点划分为𝐾个簇(cluster),使得每个数据点都属于离它最近的簇中心(centroid),并且每个簇内部的数据点尽可能相似,而簇与簇之间的数据点尽可能不相似。 欧几里得距离(Euclidean Distanc
阅读全文
摘要:K最近邻居(K-Nearest Neighbor, KNN)算法是一种简单而强大的监督学习算法。它可以用于分类和回归问题。KNN的核心思想是“物以类聚”,即一个数据点的类别由它最接近的K个邻居的类别决定。 1. KNN的工作原理 KNN是一种基于实例的学习(Instance-based Learni
阅读全文
摘要:支持向量机(Support Vector Machine, SVM)是一种强大的有监督学习模型,主要用于分类,也可用于回归任务。它的核心思想是找到一个最优的超平面,将不同类别的数据点分隔开来,并且使这个超平面与最近的训练数据点(即支持向量:样本中距离超平面最近的一些点)之间的距离最大化。 1. 工作
阅读全文
摘要:0. 引导聚集算法 引导聚集算法(Bootstrap Aggregating),简称 Bagging,是一种集成学习(Ensemble Learning)方法。其核心思想是通过并行训练多个基学习器,并结合它们的预测结果,来提高模型的稳定性和准确性,同时有效降低过拟合的风险。 Bagging算法尤其适
阅读全文
摘要:决策树(Decision Tree)是一种常见的非参数监督学习算法,可用于分类和回归任务。它通过构建树状模型,模拟人类决策过程,将数据根据不同的特征进行分割,最终在树的叶子节点得出结论。 1. 决策树的结构 一个完整的决策树由以下几个部分构成: 根节点(Root Node): 代表整个数据集的起点。
阅读全文
摘要:1. MLP (multilayer perceptron) 多层感知机(Multilayer Perceptron, MLP)是机器学习中一种基本且重要的前馈人工神经网络模型。它通过增加一个或多个隐藏层以及使用非线性激活函数,解决了单层感知机无法处理非线性可分问题的局限性。 2. 结构和组成 一个
阅读全文
摘要:1. 监督学习 监督学习(Supervised learning)是机器学习的一种基本类型,它使用已标记(labeled)的数据集来训练算法,以识别模式并预测新数据的结果。在已标记的数据集中,每个输入数据都对应一个正确的输出标签,就好比一个学生在有老师指导的情况下学习。 1.1 运作原理 准备已标记
阅读全文
摘要:From @AI 循环神经网络(Recurrent Neural Network, RNN)是一种专门用于处理序列数据的神经网络,能够捕捉数据中的时间依赖关系。与传统的前馈神经网络不同,RNN通过隐藏状态(Hidden State)记忆之前的输入信息,从而实现对序列数据的建模。 核心原理 RNN的核
阅读全文
摘要:From @AI 卷积神经网络(CNN)是深度学习中的一种强大的模型,尤其在图像处理领域表现出色。 它的设计灵感来源于人类的视觉系统,试图模拟人眼对视觉信息的处理方式。CNN通过 一系列的卷积层、池化层和全连接层来提取图像中的特征,并进行分类或其他任务。 卷积层的工作原理 卷积层是CNN中的核心,它
阅读全文
摘要:ANN(Artificial Neural Networks)是一种受人脑神经元启发的计算模型,旨在模拟人脑的学习和决策过程。 它由多个相互连接的“人工神经元”组成,通过接收输入、计算权重和偏置,生成输出。神经网络广泛应用于 模式识别、自动控制、函数优化等领域。 感知器与权重机制 感知器是最早的人工
阅读全文
摘要:机器学习在人工智能驱动的 IDS 的功能中发挥着关键作用。关 键技术包括: 聚类算法,如 K-means:将网络流量分组到集群中,并将异常值标记为潜在威胁。 分类模型,例如随机森林和 SVM:这些模型根据历史数据将数据分为正常或恶意活动。
阅读全文
摘要:SPO(Self-Supervised Prompt Optimization)是一个无需外部参考即可为封闭式和开放式任务发现有效提示的高效框架。受提示质量直接体现在LLM输出中以及LLM能够有效评估对任务要求的遵循程 度的观察启发,我们仅从输出比较中得出评估和优化信号。具体来说,SPO通过LLM评
阅读全文
摘要:英语 汉语 trailer 尾部(trailer) 通常指文件、数据包或信息末尾的附加信息(如校验信息、元数据)。
阅读全文
摘要:struct iovec 是一种用于分散/聚集 I/O 操作的数据结构,它允许在一次系统调用中从多个非连续内存缓冲区读取或写入多个非连续内存缓冲区。 该结构通常与 readv 和 writev 等函数一起使用。 #include <sys/uio.h> #include <fcntl.h> #inc
阅读全文
摘要:__rdtsc指令用于读取处理器的时间戳计数器,该计数器计算自上次复位以来的时钟周期数。这对性能监控和基准测试非常有用。 以下示例为linux环境上Demo #include <stdio.h> #include <x86intrin.h> #include <stdint.h> #pragma i
阅读全文
摘要:1. vscode配置搜索排除规则 在项目根目录创建.vscode文件夹并添加settings.json文件,配置搜索排除规则: { "search.exclude": { "**/node_modules": true, "**/.DS_Store": true } } 规则说明通配符:使用**
阅读全文
摘要:restrict关键字是C99标准引入的,它告诉编译器,某个指针是访问其所指向内存区域的唯一途径。 restrict关键字只能用于指针声明,并且必须紧跟在指针类型之后,变量名之前。 明确指针唯一性 使用restrict时,一定要确保在其作用域内,指针确实是访问内存的唯一方式。否则,编译器可能会进行错
阅读全文
摘要:C 语言中 __VA_ARGS__ 是一个可变参数的宏,是新的 C99 规范中新增的. 关于…和__VA_ARGS__ … 是在函数或宏的参数列表中使用,表示该函数或宏可以接受可变数量的参数。它用于声明函数或宏的参数,并将实际传递的参数列表与之匹配。注意,... 它不能在宏的展开中使用。 ##VA_
阅读全文
摘要:std::ws是一个操纵器,它用于跳过输入流中的空白字符(如空格、制表符、换行符等)。在读取数据之前,std::ws会先跳过这些空白字符,确保读取的数据是从下一个非空白字符开始的。 举例: #include <iostream> #include <sstream> int main() { std
阅读全文
浙公网安备 33010602011771号