随笔分类 -  深度学习&机器学习&机器学习 / 机器学习

sklearn数据处理,特征工程,各种基础算法
摘要:本文将使用 Tensorflow 中包含的 Fashion MNIST 数据集。该数据集在训练集中包含 60,000 张灰度图像,在测试集中包含 10,000 张图像。 每张图片代表属于 10 个类别之一的单品(“T 恤/上衣”、“裤子”、“套头衫”等)。 因此这是一个多类分类问题。 首先我们需要安 阅读全文
posted @ 2023-07-24 17:15 lipu123 阅读(347) 评论(0) 推荐(0)
摘要:# 1 贝叶斯优化的基本原理 贝叶斯优化方法是当前超参数优化领域的SOTA手段,可以被认为是当前最为先进的优化框架,它可以被应用于AutoML的各大领域,不止限于超参数搜索HPO的领域,更是可以被用于神经网络架构搜索NAS以及元学习等先进的领域。现代几乎所有在效率和效果上取得优异成果的超参数优化方法 阅读全文
posted @ 2023-07-22 14:03 lipu123 阅读(1729) 评论(0) 推荐(0)
摘要:# 1 枚举网格搜索(Exhaustive Grid Search) ## 1.1 基本原理 在所有超参数优化的算法当中,枚举网格搜索是最为基础和经典的方法。在搜索开始之前,我们需要人工将每个超参数的备选值一一列出,多个不同超参数的不同取值之间排列组合,最终将组成一个参数空间(parameter s 阅读全文
posted @ 2023-07-21 14:04 lipu123 阅读(1200) 评论(0) 推荐(0)
摘要:# 1 堆叠法Stacking ## 1.1 堆叠法的基本思想 堆叠法Stacking是近年来模型融合领域最为热门的方法,它不仅是竞赛冠军队最常采用的融合方法之一,也是工业中实际落地人工智能时会考虑的方案之一。作为强学习器的融合方法,Stacking集**模型效果好、可解释性强、适用复杂数据**三大 阅读全文
posted @ 2023-07-21 10:09 lipu123 阅读(2067) 评论(0) 推荐(0)
摘要:# 1 认识模型融合 在机器学习竞赛界,流传着一句话:**当一切都无效的时候,选择模型融合**。这句话出自一位史上最年轻的Kaggle Master之口,无疑是彰显了模型融合这一技巧在整个机器学习世界的地位。如果说机器学习是人工智能技术中的王后,集成学习(ensemble Learning)就是王后 阅读全文
posted @ 2023-07-18 16:20 lipu123 阅读(749) 评论(0) 推荐(0)
摘要:# 1 XGBoost的基础思想与实现 ## 1.1 XGBoost pk 梯度提升树 极限提升树XGBoost(Extreme Gradient Boosting,XGB,发音/æks-g-boost/)是基于梯度提升树GBDT全面升级的新一代提升算法,也是提升家族中最富盛名、最灵活、最被机器学习 阅读全文
posted @ 2023-07-17 16:59 lipu123 阅读(728) 评论(0) 推荐(0)
摘要:上一个博客AdaBoost算法只能说是开山鼻祖,今天要说的这个GBDT才是Boosting领域里面最为强大的算法之一。XGBoost和LightGBM也是在这个算法的基础上进行改进。 # 1 梯度提升树的基本思想 梯度提升树(Gradient Boosting Decision Tree,GBDT) 阅读全文
posted @ 2023-07-16 10:10 lipu123 阅读(689) 评论(0) 推荐(0)
摘要:# 1 Boosting方法的基本思想 在集成学习的“弱分类器集成”领域,除了降低方差来降低整体泛化误差的装袋法Bagging,还有专注于**降低整体偏差**来降低泛化误差的提升法Boosting。相比起操作简单、大道至简的Bagging算法,Boosting算法在操作和原理上的难度都更大,但由于专 阅读全文
posted @ 2023-07-12 23:34 lipu123 阅读(346) 评论(0) 推荐(0)
摘要:集成学习是工业领域中应用最广泛的机器学习算法。实际工业环境下的数据量往往十分巨大,一个训练好的集成算法的复杂程度与训练数据量高度相关,因此企业在应用机器学习时通常会提供强大的计算资源作为支持,也因此当代的大部分集成算法都是支持GPU运算的(相对的,如果你发现一个算法在任何机器学习库中,都没有接入GP 阅读全文
posted @ 2023-07-12 18:25 lipu123 阅读(764) 评论(0) 推荐(0)
摘要:sklearn在2022年进行了一次大的更新。 这里我们跟新的时候要先更新pip: ``` pip install --upgrade scikit-learn ``` # 1 集成学习的三大关键领域 集成学习(Ensemble learning)是机器学习中最先进、最有效、最具研究价值的领域之一, 阅读全文
posted @ 2023-07-09 22:47 lipu123 阅读(130) 评论(0) 推荐(0)
摘要:# 1 什么是无监督学习 ![](https://img2023.cnblogs.com/blog/1914163/202306/1914163-20230612001316098-2079420465.png) - 一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小组,以便广告客 阅读全文
posted @ 2023-06-12 00:53 lipu123 阅读(122) 评论(0) 推荐(0)
摘要:# 1 简介 **当训练或者计算好一个模型之后,那么如果别人需要我们提供结果预测,就需要保存模型(主要是保存算法的参数)** # 2 sklearn模型的保存和加载API >from sklearn.externals import joblib >- 保存:joblib.dump(rf, 'tes 阅读全文
posted @ 2023-06-11 23:59 lipu123 阅读(81) 评论(0) 推荐(0)
摘要:# 1 逻辑回归的简介 ## 1.1 简介 **逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归,但是它与回归之间有一定的联系。由于算法的简单和高效,在实际中应用非常广泛。** ## 1.2 应用场景 - 广告点击率(是否会被点 阅读全文
posted @ 2023-06-11 23:44 lipu123 阅读(220) 评论(0) 推荐(0)
摘要:# 1.带有L2正则化的线性回归-岭回归 岭回归,其实也是一种线性回归。只不过在算法建立回归方程时候,加上正则化的限制,从而达到解决过拟合的效果 # 2.API ``` sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver=" 阅读全文
posted @ 2023-06-11 20:15 lipu123 阅读(66) 评论(0) 推荐(0)
摘要:**问题:训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢? 当算法在某个数据集当中出现这种情况,可能就出现了过拟合或者欠拟合的现象。** # 1. 什么是过拟合与欠拟合 **欠拟合(学习的特征太少了,预测不准)** ![image](https://img2023.cnblogs.co 阅读全文
posted @ 2023-06-11 20:02 lipu123 阅读(62) 评论(0) 推荐(0)