随笔分类 -  机器学习

机器学习算法模型
摘要:集成学习的分类 bagging 从训练集从进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果。 boosting 训练过程为阶梯状,基模型按次序一一进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综 阅读全文

posted @ 2022-02-12 21:24 foghorn 阅读(395) 评论(0) 推荐(0) |

摘要:sklearn文档参数描述 函数签名 class sklearn.tree.DecisionTreeClassifier(*, criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_le 阅读全文

posted @ 2022-02-12 19:57 foghorn 阅读(387) 评论(0) 推荐(0) |

摘要:模型有过拟合的现象,过拟合怎么办? 降低模型复杂度 增加更多的训练数据:使用更大的数据集训练模型 数据增强 正则化:L1、L2、添加BN层 添加Dropout策略 Early Stopping 重新清洗数据:把明显异常的数据剔除 使用集成学习方法:把多个模型集成在一起,降低单个模型的过拟合风险 L1 阅读全文

posted @ 2021-12-29 10:56 foghorn 阅读(64) 评论(0) 推荐(0) |

摘要:决策树思维导图[3] 1 信息论基础 1.1 熵 熵是度量样本集合纯度最常用的一种指标。假定当前样本集合$D$中第$k$类样本所占的比例为$p_{k}(k=1,2,...,|K|)$,则样本集合$D$的熵定义为: \(Ent(D)=-\sum_{k=1}^{K}p_{k}log_{2}p_{k}\) 阅读全文

posted @ 2021-10-30 23:15 foghorn 阅读(386) 评论(0) 推荐(0) |

摘要:LabelEncoder和OneHotEncoder的区别 下面是一个使用 Python sci-kit 包中 LableEncoder 和 OneHotEncoder 的具体例子: 可以看出,LabelEncoder会将object类型的数据按顺序编码,如0,1,2,3。而OneHotEncode 阅读全文

posted @ 2021-09-09 22:54 foghorn 阅读(264) 评论(0) 推荐(0) |

摘要:决策函数 监督学习的目标是学习到一个模型,通过这个模型对给定的输入,得到一个特定的输出,从而预测该数据的类别。这个模型对应的函数一般是$Y = f(X)$或者$P(Y|X)$。对于决策函数$Y = f(X)$类型,一般需要设置一个阈值用于判断属于哪个类别;对于条件概率分布$P(Y|X)$,只需要选取 阅读全文

posted @ 2021-09-08 22:49 foghorn 阅读(165) 评论(0) 推荐(0) |

摘要:机器学习三要素——模型、学习准则、优化算法。其中学习准则可以简单理解为损失函数,优化算法就是用来优化损失函数的。根据任务不同,损失函数可以分为回归损失函数和分类损失函数,每种类别的损失函数有很多种,不同的损失函数的形式以及出发点都不同,在实际应用中,根据任务的需要,选取合适的损失函数是非常关键的,它 阅读全文

posted @ 2021-08-30 19:42 foghorn 阅读(575) 评论(0) 推荐(0) |

摘要:导读 逻辑回归(LR)是一种分类模型,一般用于解决二分类问题,当然也可以扩展到多分类问题上。为什么要引入逻辑回归来解决分类问题呢?因为线性模型如果用于分类问题会有很大的问题。 如上图所示,对于左边一幅图,我们用线性模型去拟合,并规定超过阈值0.5的为一类,小于0.5的为另一类,可以很好地将两类区分开 阅读全文

posted @ 2021-08-27 15:51 foghorn 阅读(162) 评论(0) 推荐(0) |

摘要:#0 导读 现实中会遇到多分类任务。虽然我们可以用神经网络直接建模多分类问题,但在机器学习的早期,一般模型只能解决二分类问题,因此有必要了解如何将二分类问题推广到多分类问题。 #1 思路 考虑$N$个类别$C_{1},C_{2},...C_{N}$,多分类学习的基本思路是“拆解法”,即将多分类任务拆 阅读全文

posted @ 2021-08-25 15:41 foghorn 阅读(1075) 评论(0) 推荐(0) |

摘要:#0 概述 为了衡量一个机器学习模型的好坏,需要给定一个测试集,用模型对测试集中的每个样本进行预测,并根据预测结果计算评价分数。对于分类问题,常见的评价指标有准确率、精确率、召回率和F值等。给定测试集$\tau =\left { \left ( \pmb{x}{(1)},y{(1)} \right 阅读全文

posted @ 2021-07-20 12:45 foghorn 阅读(202) 评论(0) 推荐(0) |

摘要:#0 矩阵求导的本质 矩阵$A$对矩阵$B$求导:矩阵$A$中的每个元素分别对矩阵$B$中的每个元素求导。 | 因变量 | 自变量 | 导数个数 | | : | : | : : | | \(A_{1\times 1}\) | \(B_{1\times 1}\) | 1个导数 | | \(A_{m\t 阅读全文

posted @ 2021-07-03 15:37 foghorn 阅读(269) 评论(0) 推荐(0) |

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3