摘要: 1. TP, FP, TN, FN 真阳性TP:预测为正样本,实际也为正样本的特征数 假阳性FP:预测为正样本,实际为负样本的特征数 真阴性TN:预测为负样本,实际也为负样本的特征数 假阴性FN:预测为负样本,实际为正样本的特征数 2. 评估 正确率/精确率 TP/(TP+FP) = P 覆盖率/召 阅读全文
posted @ 2020-10-25 17:58 墨冰心 阅读(161) 评论(0) 推荐(0) 编辑
摘要: k折交叉检验 交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中 阅读全文
posted @ 2020-10-25 17:33 墨冰心 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 什么是? 线性判别分析(linear discriminant analysis,LDA)是对费舍尔的线性鉴别方法的归纳,这种方法使用统计学,模式识别和机器学习方法,试图找到两类物体或事件的特征的一个线性组合,以能够特征化或区分它们。所得的组合可用来作为一个线性分类器,或者,更常见的是,为后续的分类 阅读全文
posted @ 2020-10-25 16:57 墨冰心 阅读(301) 评论(0) 推荐(0) 编辑
摘要: 什么是决策树分类器? 是一个基于递归的,划分的树模型 请参考:https://www.cnblogs.com/myshuzhimei/p/11724113.html https://www.cnblogs.com/pinard/p/6053344.html https://www.cnblogs.c 阅读全文
posted @ 2020-10-25 16:22 墨冰心 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。Cover和Hart在1968年提出了最初的邻近算法。KNN是一种分类(classificati 阅读全文
posted @ 2020-10-25 16:08 墨冰心 阅读(580) 评论(0) 推荐(0) 编辑
摘要: 半朴素贝叶斯分类器 朴素贝叶斯采用了“属性条件独立性假设”,但这个假设的确是有些草率了。因为往往属性之间包含着各种依赖。于是,人们尝试对这个假设进行一定程度的放松,由此产生了“半朴素贝叶斯分类器”。半朴素贝叶斯分类器的基本想法是适当考虑一部分属性间的相互依赖信息。独依赖估计是半朴素贝叶斯分类器最常用 阅读全文
posted @ 2020-10-25 15:42 墨冰心 阅读(493) 评论(0) 推荐(0) 编辑
摘要: 若训练集的微小变动会引起预测或决策边界的大变化,则称一个分类器是不稳定的。高方差的分类器本质上就是不稳定的,因为它们通常会过拟合数据。另一方面, 高偏置方法通常弱拟合数据,因此通常有着较低的方差。无论何种情况下,学习的目标都是要通过降低方差或偏置来减少分类错误(最好是能够同时降低方差和偏置。组合方法 阅读全文
posted @ 2020-10-25 14:54 墨冰心 阅读(137) 评论(0) 推荐(0) 编辑