刷新
不同数据场景下的聚类算法

博主头像 在数据分析和机器学习领域,聚类是一种非常重要的无监督学习方法,它可以帮助我们发现数据中的内在结构,将相似的数据点分组到一起。 本文将介绍几种常见的聚类算法,包括原型聚类(如 k-均值、学习向量量化、高斯混合聚类)、密度聚类(DBSCAN)和层次聚类(AGNES)。 通过浅显易懂的方式介绍它们的原理, ...

Linux下安装mamba-ssm踩过的坑

博主头像 起初的原因是,想要跑一个用到了mamba_ssm的项目,故尝试在wsl中配置mamba_ssm库。提示需要`pip install mamba-ssm`后报错频繁,遇到了许多问题。查阅了很多blog和issue,安装了很多次环境,仿佛已经对注意事项倒背如流,但是就是无法解决最后的**selectiv... ...

聚类是如何度量数据间的“远近”的?

博主头像 在聚类分析中,距离度量是核心概念之一,它决定了数据点之间的相似性或差异性,从而影响聚类结果的质量。 选择合适的距离度量方法,就像为数据选择合适的“观察视角”,能够帮助我们发现隐藏的模式结构。 本文将详细介绍几种常用的聚类距离度量方法,包括它们的原理、代码实现,以及这些方法满足的基本性质。 1. 常用 ...

你的聚类模型靠谱吗?5大外部指标彻底揭秘

博主头像 在聚类分析中,我们常常需要评估聚类结果的质量。 外部指标是一种通过与已知的“真实标签”进行比较来评估聚类性能的方法。 这些指标可以帮助我们判断聚类算法是否能够准确地将数据划分为有意义的类别。 本文将介绍几种常见的外部指标,包括 Jaccard 系数、FM 指数、Rand 指数、DB 指数和 Dunn ...

同样的数据,更强的效果:如何让模型学会‘互补思维’?

博主头像 集成学习虽然能够通过组合多个学习器来提高预测性能,然而,如果这些学习器过于相似,集成的效果可能并不理想。 因此,增强学习器的多样性是提升集成学习性能的关键。 多样性带来的优势在于: 群体智慧原理:多样化的模型可以从不同角度捕捉数据规律 误差互补效应:不同模型的错误模式不同,投票后误差相互抵消 防止过 ...

集成学习中的多样性密码:量化学习器的多样性

博主头像 在集成学习中,多样性是一个关键概念,简单来说,多样性衡量的是各个学习器之间的差异程度。 如果学习器之间差异很大,那么它们的组合就更有可能覆盖更多的情况,从而提高集成模型的性能, 就像足球队需要不同位置的球员配合一样。 下面介绍四种常用的多样性度量方法及其实现。 1. 不合度量(Disagreemen ...

集成学习常用组合策略:让多个模型“合作”得更好

博主头像 集成学习通过组合多个学习器的预测结果,达到超越单个学习器的效果。 就像医生会诊时综合多位专家的意见,集成学习的关键在于如何有效整合不同学习器的判断。 这些学习器可以是不同类型的模型,比如决策树、支持向量机、神经网络等。通过合理地组合这些学习器,我们可以获得比单一模型更好的预测效果。 今天,重点介绍4 ...

集成学习双雄:Boosting和Bagging简介

博主头像 在机器学习的世界里,集成学习(Ensemble Learning)是一种强大的技术,它通过组合多个模型来提高预测性能。 集成学习通过组合多个基学习器的预测结果,获得比单一模型更优秀的性能。其核心思想是"三个臭皮匠顶个诸葛亮",主要分为两大流派:Boosting(提升)和Bagging(装袋)。 本文 ...

从“朴素”到“半朴素”:贝叶斯分类器的进阶之路

博主头像 在机器学习分类任务中,朴素贝叶斯(Naive Bayes)因其简单高效而广受欢迎,但它的“朴素”之名也暗示了其局限性。 为了突破这一局限,半朴素贝叶斯(Semi-Naive Bayes) 应运而生。 本文将详细介绍朴素贝叶斯和半朴素贝叶斯的原理、应用场景以及如何使用scikit-learn库实现它们 ...

极大似然估计:频率学派与贝叶斯学派的碰撞与融合

博主头像 在统计学的世界里,参数估计一直是数据分析的核心任务之一。 极大似然估计(MLE)作为一种经典的参数估计方法,被广泛应用于各种领域。 然而,极大似然估计并非只有一种实现方式,它在频率学派和贝叶斯学派中有着不同的理论基础和应用场景。 本文将探讨这两种学派的区别,并通过实际代码示例展示它们在极大似然估计中 ...

机器学习线性模型推导计算

本篇笔记总结了最基本,同时也是推导比较容易理解的机器学习中线性模型的部分。 许多非线性模型也是在线性模型的基础上做了结构等方面的补充和引入。 本笔记随学习进度的跟进将持续更新:) 基本形式 \[f(\bf{x}) = \bf{\omega^T x + b} \]线性回归 主要内容:主要是学得\(\o ...

最详细最易懂的【YOLOX原理篇】

博主头像 目录前言简介详细解读Mosaic and MixupMixupMosaicDecoupled Headanchor freeSimOTAin_boxes 和 in_center计算cost矩阵dynamic_k_matching算法网络架构参考资料 前言 提出时间:2021年 作者单位:旷视科技 旷 ...

软间隔:让支持向量机更“宽容”

博主头像 在SVM中,软间隔是一个重要的概念,它允许模型在一定程度上容忍误分类,从而提高模型的泛化能力。 本文将详细介绍软间隔的定义、与硬间隔的区别、损失函数的作用,最后使用 scikit-learn 进行实际演示。 1. 软间隔 vs 硬间隔 在支持向量机中,软间隔是指允许某些数据点违反分类边界(即误分类) ...

核函数:让支持向量机从“青铜”变“王者”

博主头像 在机器学习领域,支持向量机(SVM)是一种强大的分类算法,而核函数则是其核心组件之一。 核函数的本质是一个「空间映射工具」。 当原始数据在低维空间中线性不可分时(如环形、月牙形数据),核函数能将数据隐式地映射到更高维的特征空间,使得在高维空间中数据变得线性可分,同时避免直接计算高维特征的爆炸性计算量 ...

多变量决策树:机器学习中的“多面手”

博主头像 在机器学习的广阔领域中,决策树一直是一种备受青睐的算法。它以其直观、易于理解和解释的特点,广泛应用于分类和回归任务。 然而,随着数据复杂性的不断增加,传统决策树的局限性逐渐显现。 本文将深入探讨多变量决策树这一强大的工具,它不仅克服了传统决策树的瓶颈,还为处理复杂数据提供了新的思路。 1. 基本概念 ...

当决策树遇上脏数据:连续值与缺失值的解决方案

博主头像 在机器学习中,决策树算法因其简单易懂、可解释性强而被广泛应用。 然而,现实世界中的数据往往复杂多变,尤其是连续值和缺失值的存在,给决策树的构建带来了诸多挑战。 连续值(如年龄、收入)无法直接用于决策树的离散分裂点,需要转化为“离散区间”。 缺失值(如用户未填写的问卷项)可能导致信息损失或模型偏差。 ...

决策树剪枝:平衡模型复杂性与泛化能力

博主头像 在机器学习的世界里,决策树是一种简单而强大的算法,但它的 “任性生长” 却常常让数据科学家陷入 “过拟合的困境”。 想象一下,一棵决策树如果无限生长,它可能会完美地拟合训练集中的每一个数据点,但当面对新的数据时,却可能表现得像一个“陌生人”——预测完全失效。 这种现象背后的原因在于模型过于复杂,对训 ...

决策树:机器学习中的“智慧树”

博主头像 在机器学习的广阔森林中,决策树(Decision Tree)是一棵独特而强大的“智慧树”。 它是一种监督学习算法,既可以用于分类任务,也能用于回归任务,通过树形结构模拟人类决策过程。 这篇文章会带你了解决策树,从基础概念开始,一步步讲解如何构建决策树、常用的算法以及它的实际应用。 1. 概述 决策树 ...

【深度学习】从VAE到GAN漫谈

博主头像 正文 从AE说起 AE是一个特征提取模型,通过编解码的形式重构输入,完成低维特征表示工作 推导 存在一个输入\(x\),构造AE编码器\(p_\theta(x)\),得到离散低维特征\(z\); 通过AE解码器\(q_\phi(z)\),重构回\(\hat{x}\); 通过正则项\(\Vert x- ...

<1···8910···12>