摘要: 将属性称为特征,把对当前学习任务有用的属性称为“相关特征”、没用的特征称为“无关特征”,从给定的特征集合中选择出相关特征子集的过程,称为“特征选择” 特征选择是一个数据预处理过程,和降维一样也可以减缓维数灾难问题,不过它们的区别在于: 特征选择是选择一部分原始特征,不改变特征的含义,只是减少特征的数 阅读全文
posted @ 2025-04-09 23:42 rdcamelot 阅读(64) 评论(0) 推荐(0)
摘要: k近邻学习(kNN) 是一种懒惰学习,最开始得到数据集时不进行任何操作,在预测时再进行计算,此时计算复杂度较高 k 近邻学习是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测,通常,在分类任务中可使 阅读全文
posted @ 2025-04-09 22:21 rdcamelot 阅读(32) 评论(0) 推荐(0)
摘要: 无监督学习中,训练样本的标记信息是位置的,这时就需要通过对无标记训练样本的学习来揭示数据的内在性质及规律 聚类试图将数据集中的样本划分为若干个不相交的子集,每个子集称为一个“簇” 性能度量 判断怎么样的聚类结果是比较好的,显然,聚类结果的“簇内相似度”高且“簇间相似度”低 常用的聚类性能内部指标: 阅读全文
posted @ 2025-04-09 18:50 rdcamelot 阅读(94) 评论(0) 推荐(0)
摘要: 通过构建并结合多个学习器来完成学习任务 例如先产生一组“个体学习器”,再用某种策略将它们结合起来.个体学习器通常由一个现有的学习算法从训练数据产生,此时集成中只包含同种类型的个体学习器,这样的集成是“同质”的,同质集成中的个体学习器亦称“基学习器”,相应的学习算法称为“基学习算法”;集成也可包含不同 阅读全文
posted @ 2025-04-09 13:26 rdcamelot 阅读(22) 评论(0) 推荐(0)
摘要: 贝叶斯决策论是概率框架下实施决策的基本方法,也就是考虑如何基于概率和误判损失来选择最优的类别标记 贝叶斯框架下,损失函数由条件风险定义,而条件风险基于后验概率:条件风险\(R(c_i|\boldsymbol{x})\)表示将样本x分类为\(c_i\)所产生的期望损失,\(R(c_i|\boldsym 阅读全文
posted @ 2025-04-09 10:57 rdcamelot 阅读(57) 评论(0) 推荐(0)