enhaofrank

回归模型

摘要：回归模型可以用来预测人的生理年龄，之前在上一家公司的时候，有些同事就是做了这方面的一些工作。当然，回归模型还可以干很多事，例如预测二手车的价格，预测汽车销量等等。回归模型研究的是因变量和自变量之间的关系。常见的回归方法有： 1、线性回归 2、逻辑回归 3、岭回归 4、套索回归 5、弹性网络回归回阅读全文

posted @ 2021-12-24 17:08 enhaofrank 阅读(517) 评论(0) 推荐(0) 编辑

数据挖掘模型总结

摘要：对于机器学习问题来说，或许找到一个正确的模型是相当重要的，不同的模型对于数据集的大小以及解决的问题都不一样，sklearn官网有一张图可以清晰的告诉我们，如何选择一个适合的模型：参考资料： 1、https://scikit-learn.org/stable/tutorial/machine_lea 阅读全文

posted @ 2021-12-23 20:36 enhaofrank 阅读(85) 评论(0) 推荐(0) 编辑

机器学习算法——降维

摘要：降维是机器学习中很重要的一种思想。在机器学习中经常会碰到一些高维的数据集，而在高维数据情形下会出现数据样本稀疏，距离计算等困难，这类问题是所有机器学习方法共同面临的严重问题，称之为“ 维度灾难 ”。另外在高维特征中容易出现特征之间的线性相关，这也就意味着有的特征是冗余存在的。基于这些问题，降维思想就阅读全文

posted @ 2021-12-23 20:35 enhaofrank 阅读(573) 评论(0) 推荐(0) 编辑

欠采样和过采样

摘要：什么是样本不平衡对于二分类问题，如果两个类别的样本数目差距很大，那么训练模型的时候会出现很严重的问题。举个简单的例子，猫狗图片分类，其中猫有990张，狗有10张，这时候模型只需要把所有输入样本都预测成猫就可以获得99%的识别率，但这样的分类器没有任何价值，它无法预测出狗。类别不平衡（class- 阅读全文

posted @ 2021-12-23 14:32 enhaofrank 阅读(6718) 评论(0) 推荐(0) 编辑

用户画像

摘要：参考资料 1、https://mp.weixin.qq.com/s/g-gygsxJVWHBjaNpjlSvkw 2、https://mp.weixin.qq.com/s/cPxy26ma9iwKni9IA7YZ0Q 3、https://mp.weixin.qq.com/s/YjBQgB2Y5Zcx 阅读全文

posted @ 2021-12-23 12:48 enhaofrank 阅读(314) 评论(0) 推荐(0) 编辑

数据分析指标

摘要：参考资料 1、https://mp.weixin.qq.com/s/yvQMFZuYlPKujfMmEC_Wvg 2、https://mp.weixin.qq.com/s/ShkmhTkYksJyZ0pO07-y7Q 3、https://mp.weixin.qq.com/s/MYhZsR_UFCLv 阅读全文

posted @ 2021-12-23 12:47 enhaofrank 阅读(134) 评论(0) 推荐(0) 编辑

机器学习算法优缺点总结

摘要：以下四篇文章从不同的角度总结了大多数机器学习算法的优缺点，值得一看！参考资料 1、https://mp.weixin.qq.com/s/oEWg08sGsrrhYFNI8bdWBg 2、https://mp.weixin.qq.com/s/9_wnblNwOA23dM4Cz8QM9w 3、http 阅读全文

posted @ 2021-12-22 20:41 enhaofrank 阅读(94) 评论(0) 推荐(0) 编辑

机器学习4个常用超参数调试方法！

摘要：传统的手工调参网格搜索随机搜索贝叶斯搜索参考文献： 1、https://mp.weixin.qq.com/s/V3HzYBlOsMo3C_Hf4r2OqA 2、https://www.jianshu.com/p/5378ef009cae 3、https://www.cnblogs.com/w 阅读全文

posted @ 2021-12-22 20:32 enhaofrank 阅读(59) 评论(0) 推荐(0) 编辑

adaboost

摘要：前面介绍了几种不同的分类算法，它们各有优缺点，我们可以将不同的分类器组合起来，这种组合的结果被称为集成方法(ensemble method）或者元算法(meta-algorithm)。使用集成方法时会有多种形式：可以是不同算法的集成，也可以是同一算法在不同设置下的集成，还可以是数据集不同部分分配给不阅读全文

posted @ 2021-12-22 15:03 enhaofrank 阅读(281) 评论(0) 推荐(0) 编辑

集成学习算法

摘要： Bagging是并行的学习算法，思想很简单，即每一次从原始数据中根据均匀概率分布有放回的抽取和原始数据集一样大小的数据集合。样本点可以出现重复，然后对每一次产生的数据集构造一个分类器，再对分类器进行组合。 Boosting的每一次抽样的样本分布是不一样的，每一次迭代，都是根据上一次迭代的结果，增加被阅读全文

posted @ 2021-12-22 15:02 enhaofrank 阅读(118) 评论(0) 推荐(0) 编辑