摘要: 欧式距离 是两点间“普通”(即直线)距离 公式为: 闵可夫斯基距离Minkowski 是欧氏空间中的一种测度,被看做是欧氏距离的一种推广,公式为: 闵可夫斯基距离公式中,当时,即为欧氏距离;当p=1时,即为曼哈顿距离;当p趋于无穷时,即为切比雪夫距离。 规范化的欧几里得距离 标准化后的值 = ( 标 阅读全文
posted @ 2020-11-14 14:39 墨冰心 阅读(1075) 评论(0) 推荐(0) 编辑
摘要: 传统处理方法 1.加权 即其对不同类别分错的代价不同,这种方法的难点在于设置合理的权重,实际应用中一般让各个分类间的加权损失值近似相等。当然这并不是通用法则,还是需要具体问题具体分析。和代价敏感类似 有如下加权方法: 概率权重法:当数量差距不那么悬殊时,把各类标签的实例出现的频率比作权重,此特征权重 阅读全文
posted @ 2020-11-13 21:04 墨冰心 阅读(1108) 评论(0) 推荐(0) 编辑
摘要: 特征提取 特征提取一般分为卡方检验,互信息,信息增益。一般都是通过相关性分析,进行特征提取 卡方检验 卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优 阅读全文
posted @ 2020-10-30 13:17 墨冰心 阅读(622) 评论(0) 推荐(0) 编辑
摘要: 请参考:https://www.cnblogs.com/pinard/p/6097604.html 阅读全文
posted @ 2020-10-29 21:56 墨冰心 阅读(49) 评论(0) 推荐(0) 编辑
摘要: 原理请参考:https://www.cnblogs.com/pinard/p/6042320.html 阅读全文
posted @ 2020-10-29 16:29 墨冰心 阅读(51) 评论(0) 推荐(0) 编辑
摘要: 什么是最大熵模型 最大熵模型(maximum entropy model, MaxEnt)也是很典型的分类算法了,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术 其原理,请参考:https://www.cnblogs.com/pinard/p/ 阅读全文
posted @ 2020-10-29 16:00 墨冰心 阅读(93) 评论(0) 推荐(0) 编辑
摘要: 逻辑回归是回归分析的一种,请看本账号-》数据分析-》回归分析 什么是逻辑回归? 逻辑回归是一个分类算法,它可以处理二元分类以及多元分类。虽然它名字里面有“回归”两个字,却不是一个回归算法。当西南行回归的输出变量变为离散的,就成为一个分类问题 没时间写了,请参考:https://www.cnblogs 阅读全文
posted @ 2020-10-29 15:08 墨冰心 阅读(68) 评论(0) 推荐(0) 编辑
摘要: 线性回归是回归分析的一种,关于回归分析请看:本账号-》数据分析-》回归分析 一下是线性回归链接 https://www.cnblogs.com/pinard/p/6004041.html https://www.cnblogs.com/futurehau/p/6105011.html 阅读全文
posted @ 2020-10-29 14:30 墨冰心 阅读(58) 评论(0) 推荐(0) 编辑
摘要: 1. TP, FP, TN, FN 真阳性TP:预测为正样本,实际也为正样本的特征数 假阳性FP:预测为正样本,实际为负样本的特征数 真阴性TN:预测为负样本,实际也为负样本的特征数 假阴性FN:预测为负样本,实际为正样本的特征数 2. 评估 正确率/精确率 TP/(TP+FP) = P 覆盖率/召 阅读全文
posted @ 2020-10-25 17:58 墨冰心 阅读(161) 评论(0) 推荐(0) 编辑
摘要: k折交叉检验 交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中 阅读全文
posted @ 2020-10-25 17:33 墨冰心 阅读(160) 评论(0) 推荐(0) 编辑