博客:https://www.cnblogs.com/enhaofrank/,公众号:生信AI区块链科技前沿,github:https://github.com/enhaofrank

功不唐捐 玉汝于成

2021年12月23日

数据挖掘模型总结

摘要: 对于机器学习问题来说,或许找到一个正确的模型是相当重要的,不同的模型对于数据集的大小以及解决的问题都不一样,sklearn官网有一张图可以清晰的告诉我们,如何选择一个适合的模型: 参考资料: 1、https://scikit-learn.org/stable/tutorial/machine_lea 阅读全文

posted @ 2021-12-23 20:36 enhaofrank 阅读(139) 评论(0) 推荐(0)

机器学习算法——降维

摘要: 降维是机器学习中很重要的一种思想。在机器学习中经常会碰到一些高维的数据集,而在高维数据情形下会出现数据样本稀疏,距离计算等困难,这类问题是所有机器学习方法共同面临的严重问题,称之为“ 维度灾难 ”。另外在高维特征中容易出现特征之间的线性相关,这也就意味着有的特征是冗余存在的。基于这些问题,降维思想就 阅读全文

posted @ 2021-12-23 20:35 enhaofrank 阅读(698) 评论(0) 推荐(0)

欠采样和过采样

摘要: 什么是样本不平衡 对于二分类问题,如果两个类别的样本数目差距很大,那么训练模型的时候会出现很严重的问题。举个简单的例子,猫狗图片分类,其中猫有990张,狗有10张,这时候模型只需要把所有输入样本都预测成猫就可以获得99%的识别率,但这样的分类器没有任何价值,它无法预测出狗。 类别不平衡(class- 阅读全文

posted @ 2021-12-23 14:32 enhaofrank 阅读(7971) 评论(0) 推荐(0)

用户画像

摘要: 参考资料 1、https://mp.weixin.qq.com/s/g-gygsxJVWHBjaNpjlSvkw 2、https://mp.weixin.qq.com/s/cPxy26ma9iwKni9IA7YZ0Q 3、https://mp.weixin.qq.com/s/YjBQgB2Y5Zcx 阅读全文

posted @ 2021-12-23 12:48 enhaofrank 阅读(335) 评论(0) 推荐(0)

数据分析指标

摘要: 参考资料 1、https://mp.weixin.qq.com/s/yvQMFZuYlPKujfMmEC_Wvg 2、https://mp.weixin.qq.com/s/ShkmhTkYksJyZ0pO07-y7Q 3、https://mp.weixin.qq.com/s/MYhZsR_UFCLv 阅读全文

posted @ 2021-12-23 12:47 enhaofrank 阅读(150) 评论(0) 推荐(0)

导航