随笔分类 - 机器学习 算法与应用
摘要:五、随机森林和 Extra-Trees 六、Ada Boosting 和 Gradient Boosting 七、Stacking 八、学习scikit-learn文档, 官方学习文档: http://scikit-learn.org http://scikit-learn.org/stable/u
阅读全文
摘要:一、什么是集成学习 二、Soft Voting Classifier 更合理的投票,应该有的权值 三、Bagging 和 Pasting 四、oob (Out-of-Bag) 和关于Bagging的更多讨论
阅读全文
摘要:四、基尼系数 五、CART与决策树中的超参数 Classification And Regression Tree 根据某一个维度d 和某一阈值v进行二分 scikit-learn的决策树实现:CART 六、决策树解决回归问题 七、决策树的局限性 本文章仅仅 波波老师机器学习的学习笔记。本文章仅仅
阅读全文
摘要:决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象
阅读全文
摘要:支持向量机通过某非线性变换 φ( x) ,将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算,而在低维输入空间又存在某个函数 K(x, x′) ,它恰好等于在高维空间中这个内积,即K( x, x′) =<φ( x) ⋅φ( x′) > 。那么支持向量机就不用计
阅读全文
摘要:一、什么是支撑向量机SVM (Support Vector Machine) SVM(Support Vector Machine)指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。 Vapnik等人在多年研究统计学习理论基础上对
阅读全文
摘要:五、精准率和召回率的平衡 Precision-Recall 的平衡 六、精准率-召回率曲线 七、ROC曲线 Receiver Operation Characteristic Curve 描述 TPR 和 FPR 之间的关系 metrics.py 八、多分类问题中的混淆矩阵 我写的文章只是我自己对b
阅读全文
摘要:一、准确度的陷阱和混淆矩阵 分类算法的评价 分类准确度的问题: 一个安正预测系统,输入体检信息,就可以判断是否有癌症, 预测准确度:99.9% 如果癌症产生的概率只有0.01% 我们系统预测所有人都是健康的,可达到99.99%的准确度。 对于极度偏斜 (Skewed Data)的数据 只使用分类准确
阅读全文
摘要:五、决策边界 六、在逻辑回归中使用多项式特征 七、scikit-learn中的逻辑回归 八、OvR与OvO 我写的文章只是我自己对bobo老师讲课内容的理解和整理,也只是我自己的弊见。bobo老师的课 是慕课网出品的。欢迎大家一起学习。 我写的文章只是我自己对bobo老师讲课内容的理解和整理,也只是
阅读全文
摘要:一、什么是逻辑回归 逻辑回归 Logistic Regression 逻辑回归:解决分类问题 回归问题怎么解决分类问题? 将样本的特征和样本发生的概率联系起来,概率是一个数。 二、逻辑回归的损失函数 三、 逻辑回归损失函数的梯度 四、实现逻辑回归算法 LogisticRegression.py 我写
阅读全文
摘要:六、验证数据集与交叉验证 七、偏差方差平衡 偏差方差权衡 Bias Variance Trade off 偏差 Bias 导致偏差的主要原因: 对问题本身的假设不正确! 如:非线性数据使用线性回归 欠拟合 underfitting 方差 Variance 数据的一点点扰动都会较大的影响模型 通常原因
阅读全文
摘要:一、什么是多项式回归 直线回归研究的是一个依变量与一个自变量之间的回归问题,但是,在畜禽、水产科学领域的许多实际问题中,影响依变量的自变量往往不止一个,而是多个,比如绵羊的产毛量这一变量同时受到绵羊体重、胸围、体长等多个变量的影响,因此需要进行一个依变量与多个自变量间的回归分析,即多元回归分析。 研
阅读全文
摘要:五、高维数据映射为低维数据 换一个坐标轴。在新的坐标轴里面表示原来高维的数据。 低维 反向 映射为高维数据 PCA.py 六、scikit-learn 中的 PCA 七、试手MNIST数据集 通过单幅图像数据的高维化,将单幅图像转化为高维空间中的数据集合,对其进行非线性降维,寻求其高维数据流形本征结
阅读全文
摘要:一、什么是PCA 主成分分析 Principal Component Analysis 一个非监督学的学习算法 主要用于数据的降维 通过降维,可以发现更便于人类理解的特征 其他应用:可视化;去噪 第一步:将样例的均值归零(demean) 二、使用梯度上升法求解PCA问题 梯度上升法解决主成分分析问题
阅读全文
摘要:梯度下降法的基本思想可以类比为一个下山的过程。假设这样一个场景:一个人被困在山上,需要从山上下来(i.e. 找到山的最低点,也就是山谷)。但此时山上的浓雾很大,导致可视度很低。因此,下山的路径就无法确定,他必须利用自己周围的信息去找到下山的路径。这个时候,他就可以利用梯度下降算法来帮助自己下山。具体
阅读全文
摘要:一、什么是梯度下降法 梯度下降法 Gradient Descent 1.不是一个机器学习算法 2.是一种基于搜索的最优化方法 3.作用:最小化一个损失函数 4.梯度上升法:最大化一个效用函数 并不是所有函数都有唯一的极值点 二、模拟梯度下降法 三、线性回归中的梯度下降法 多元线性回归中的梯度下降法
阅读全文
摘要:六、最好的衡量线性回归法的指标: R Squared 七、多元线性回归 八、实现多元线性回归 九、使用 scikit-learn 解决回归问题 十、线性回归的可解释性和更多的思考 写了这么多,怎么还不够150字? 写了这么多,怎么还不够150字? 写了这么多,怎么还不够150字? 写了这么多,怎么还
阅读全文
摘要:一、简单额线性回归 解决回归问题 思想简单、实现容易 许多强大的非线性模型的基础 结果具有很好的可解释性 蕴含机器学习中的很多重要思想 二、最小二乘法 三、简单线性回归的实现 SimpleLinearRegression.py 四、向量化 五、衡量线性回归法的指标:MSE、RMS 和 MAE met
阅读全文
摘要:六、网格搜索与 K 邻近算法中更多的超参数 七、数据归一化 Feature Scaling 解决方案:将所有的数据映射到同一尺度 八、scikit-learn 中的 Scaler preprocessing.py 九、更多有关 K 近邻算法的思考 优点: 解决分类问题 天然可以解决多分类问题 思想简
阅读全文
摘要:一、K近邻算法基础 KNN K近邻算法 K-Nearest Neighbors 思想极度简单 应用数学知识少 (近乎为零) 效果好(缺点?) 可以解释机器学习算法使用过程中很多细节问题 更完整的刻画机器学习应用的流程 kNN的过程 二、scikit-learn 中的机器学习算法封装KNN/KNNN.
阅读全文
浙公网安备 33010602011771号