墨冰心

2020年11月14日

摘要：欧式距离是两点间“普通”（即直线）距离公式为：闵可夫斯基距离Minkowski 是欧氏空间中的一种测度，被看做是欧氏距离的一种推广，公式为：闵可夫斯基距离公式中，当时，即为欧氏距离；当p=1时，即为曼哈顿距离；当p趋于无穷时，即为切比雪夫距离。规范化的欧几里得距离标准化后的值 = ( 标阅读全文

posted @ 2020-11-14 14:39 墨冰心阅读(1075) 评论(0) 推荐(0) 编辑

2020年11月13日

不平衡数据的处理

摘要：传统处理方法 1.加权即其对不同类别分错的代价不同，这种方法的难点在于设置合理的权重，实际应用中一般让各个分类间的加权损失值近似相等。当然这并不是通用法则，还是需要具体问题具体分析。和代价敏感类似有如下加权方法：概率权重法：当数量差距不那么悬殊时，把各类标签的实例出现的频率比作权重，此特征权重阅读全文

posted @ 2020-11-13 21:04 墨冰心阅读(1108) 评论(0) 推荐(0) 编辑

2020年10月30日

特征提取

摘要：特征提取特征提取一般分为卡方检验，互信息，信息增益。一般都是通过相关性分析，进行特征提取卡方检验卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数的范畴，主要是比较两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优阅读全文

posted @ 2020-10-30 13:17 墨冰心阅读(622) 评论(0) 推荐(0) 编辑

2020年10月29日

支持向量机

摘要：请参考：https://www.cnblogs.com/pinard/p/6097604.html 阅读全文

posted @ 2020-10-29 21:56 墨冰心阅读(49) 评论(0) 推荐(0) 编辑

感知机

摘要：原理请参考：https://www.cnblogs.com/pinard/p/6042320.html 阅读全文

posted @ 2020-10-29 16:29 墨冰心阅读(51) 评论(0) 推荐(0) 编辑

最大熵模型

摘要：什么是最大熵模型最大熵模型(maximum entropy model， MaxEnt)也是很典型的分类算法了，它和逻辑回归类似，都是属于对数线性分类模型。在损失函数优化的过程中，使用了和支持向量机类似的凸优化技术其原理，请参考：https://www.cnblogs.com/pinard/p/ 阅读全文

posted @ 2020-10-29 16:00 墨冰心阅读(93) 评论(0) 推荐(0) 编辑

逻辑回归

摘要：逻辑回归是回归分析的一种，请看本账号-》数据分析-》回归分析什么是逻辑回归？逻辑回归是一个分类算法，它可以处理二元分类以及多元分类。虽然它名字里面有“回归”两个字，却不是一个回归算法。当西南行回归的输出变量变为离散的，就成为一个分类问题没时间写了，请参考：https://www.cnblogs 阅读全文

posted @ 2020-10-29 15:08 墨冰心阅读(68) 评论(0) 推荐(0) 编辑

线性回归

摘要：线性回归是回归分析的一种，关于回归分析请看：本账号-》数据分析-》回归分析一下是线性回归链接 https://www.cnblogs.com/pinard/p/6004041.html https://www.cnblogs.com/futurehau/p/6105011.html 阅读全文

posted @ 2020-10-29 14:30 墨冰心阅读(58) 评论(0) 推荐(0) 编辑

2020年10月25日

分类器性能度量

摘要： 1. TP, FP, TN, FN 真阳性TP：预测为正样本，实际也为正样本的特征数假阳性FP：预测为正样本，实际为负样本的特征数真阴性TN：预测为负样本，实际也为负样本的特征数假阴性FN：预测为负样本，实际为正样本的特征数 2. 评估正确率/精确率 TP/(TP+FP) = P 覆盖率/召阅读全文

posted @ 2020-10-25 17:58 墨冰心阅读(161) 评论(0) 推荐(0) 编辑

分类器评估

摘要： k折交叉检验交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证，顾名思义，就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中阅读全文

posted @ 2020-10-25 17:33 墨冰心阅读(160) 评论(0) 推荐(0) 编辑

公告