随笔分类 - 深度学习&机器学习&机器学习
摘要:**问题:训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢? 当算法在某个数据集当中出现这种情况,可能就出现了过拟合或者欠拟合的现象。** # 1. 什么是过拟合与欠拟合 **欠拟合(学习的特征太少了,预测不准)** 是利用回归方程(函数)对一个或多个自变量(特征
阅读全文
摘要:``` 说明线性回归的原理 应用LinearRegression或SGDRegressor实现回归预测 记忆回归算法的评估标准及其公式 说明线性回归的缺点 说明过拟合与欠拟合的原因以及解决方法 说明岭回归的原理即与线性回归的不同之处 说明正则化对于权重参数的影响 说明L1和L2正则化的区别 说明逻辑
阅读全文
摘要:因为决策树会出现那种过拟合的情况,这时候我们就会用到随机森林 # 1 什么是集成学习方法 >集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。 **说白了,就是三个臭皮匠顶一个
阅读全文
摘要:# 1.认识决策树 >**决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法 怎么理解这句话?通过一个对话例子**   交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。 我们之前知道数据分为训练集和测试
阅读全文
摘要:# 1.来源 **fit和transform没有任何关系,仅仅是数据处理的两个不同环节,之所以出来fit_transform这个函数名,仅仅是为了写代码方便,会高效一点。 sklearn里的封装好的各种算法使用前都要fit,fit相对于整个代码而言,为后续API服务。fit之后,然后调用各种API方
阅读全文
摘要:# 1.什么是k-近邻算法 例如:  >**如果你不知道你现在在哪,你可以通过你和你的邻居的距离推算出你的
阅读全文
摘要:# 1.转换器 **想一下之前做的特征工程的步骤? 1、实例化 (实例化的是一个转换器类(Transformer)) 2、调用fit_transform(对于文档建立分类词频矩阵,不能同时调用) ** ``` 标准化: (x-mean)/std fit_transform() fit() 计算每一列
阅读全文