随笔分类 -  机器学习

摘要:为什么要解决样本不均衡问题? 样本不均衡是指在分类任务的训练集中某些类的样本特别多,某些类的样本特别少的情况。由于模型训练时的代价函数是每一批次样本损失的和,因此样本比较多的类别会贡献更多的损失,样本比较少的类别会贡献比较少的损失,这样模型有可能会错误地认为这是一种先验,即某些类样本比较多,某些类样 阅读全文
posted @ 2022-04-17 17:04 肖肖凯 阅读(331) 评论(0) 推荐(0)
摘要:监督集成学习 引言 主要有bagging、boosting、stacking三种,其中bagging需要基学习器同时具备高性能与高度的数据敏感性,boosting算法在训练有噪声数据时容易产生过拟合问题。 bagging 通过自助采样法得到不同分布的训练子集,然后用不同训练子集训练基学习器,最后采取 阅读全文
posted @ 2022-04-17 13:13 肖肖凯 阅读(279) 评论(0) 推荐(0)
摘要:正则化作用 当模型复杂度过高时可能会导致过拟合,即模型学到了训练集上的一些非全局的特征,导致随着训练的进行训练误差逐渐较小但是验证误差不在减小反而增大。正则化用于解决过拟合问题,主要的正则化方法包括L1、L2正则化,Dropout,Early stopping,数据增强等。 正则化方法的外在表现是在 阅读全文
posted @ 2022-04-15 17:37 肖肖凯 阅读(387) 评论(0) 推荐(0)
摘要:#熵定义 \(s(x) = - \sum_iP(x_i)log_bP(x_i)\) 熵的定义表明了一个事件所含有的信息量,上式中$x_i$表示一个事件,$P(x_i)$表示该事件发生的概率。由定义可知,如果某事件发生概率为1,则它的熵为0。 独立事件的信息量可叠加。 由于事件发生的概率在[0,1]之 阅读全文
posted @ 2022-04-13 19:16 肖肖凯 阅读(520) 评论(0) 推荐(0)
摘要:引言 在构建机器学习模型时,通常需要先采集数据,然后将数据分为训练集、验证集、测试集。训练集用于训练模型,验证集(如果数据量比较少可以采用交叉验证的方式)用于调整超参数,测试集则用于最后评估模型的性能。通常假设所有的样本都是独立同分布采样的。 经验误差、测试误差、泛化误差定义 经验误差指模型在训练集 阅读全文
posted @ 2022-04-12 21:18 肖肖凯 阅读(2821) 评论(0) 推荐(0)