摘要:熵在物理中是用于衡量一个热力学系统的无序程度,表达式为△S=Q/T,其中Q是吸收或者释放的热量,T是温度。 计算机领域将其定义为离散随机事件出现的概率。一个系统越是有序信息熵就会越低;反之,系统越是混乱,信息熵就越高。 「联合熵」 两个随机变量X,Y的联合分布可求得联合熵。 「条件熵」 在随机变量X 阅读全文
posted @ 2020-07-05 09:37 飒白 阅读(44) 评论(0) 推荐(0) 编辑
摘要:数据不平衡又称样本比例失衡,比如二分类问题,如果标签为1的样本占总数的99%,标签为0的样本占比1%则会导致判断「失误严重」,准确率虚高。 常见的解决不平衡问题的方法如下。 「数据采样」 数据采样分为上采样和下采样,上采样是将少量的数据通过重复复制使得各类别比例均衡,不过很容易导致过拟合问题,所以需 阅读全文
posted @ 2020-04-27 21:54 飒白 阅读(152) 评论(0) 推荐(0) 编辑
摘要:❝ 本文需要工具: 「excel」 「python3.x」 ❞ 今天突然觉得,我的博客的文章更新这么多了竟然还没有一个封面,觉得首页相当低调了… 首页 正好皮肤带有文章封面功能,所以我觉得要将文章批量加上文章推图! 1.寻找图片 推荐大家一个网站:https://www.pexels.com/ 找到 阅读全文
posted @ 2020-04-19 16:36 飒白 阅读(209) 评论(0) 推荐(0) 编辑
摘要:首先定义凸集,如果x,y属于某个集合M,并且所有的θx+(1 θ)f(y)也属于M,那么M为一个凸集。如果函数f的定义域是凸集,并且满足 f(θx+(1 θ)y)≤θf(x)+(1 θ)f(y) 则该函数为凸函数。 如果函数存在二阶导并且为正,或者多元函数的Hessian矩阵半正定则均为凸函数。 「 阅读全文
posted @ 2020-04-17 12:11 飒白 阅读(102) 评论(0) 推荐(0) 编辑
摘要:「(1) 0 1 loss」 记录分类错误的次数。 「(2)Hinge Loss」 最常用在SVM中「最大优化间隔分类」中,对可能的输出t=±1和分类器分数y,预测值y的hinge loss定义如下: L(y)=max(0.1 t y) 「(3)Log Loss对数损失」 对于「对数函数」,由于其具 阅读全文
posted @ 2020-04-16 08:45 飒白 阅读(95) 评论(0) 推荐(0) 编辑
摘要:常用梯度下降法与优化器 机器学习中大部分为优化问题,而绝大部分优化问题都可以使用「梯度下降法」处理。 梯度下降法的数学原理是函数沿着梯度方向具有「最大变化率」,那么在优化目标函数时沿着负梯度方向去减少函数值,以此达到优化目标。 通过迭代的方式寻找「最优参数」,最优参数是指是目标函数达到最小值时的参数 阅读全文
posted @ 2020-04-15 07:36 飒白 阅读(168) 评论(0) 推荐(0) 编辑
摘要:偏差度量了学习算法的期望与真实结果的偏差,刻画了算法本身的「拟合能力」,方差度量了同样大小的训练集的变动所导致的学习性能的变化。 偏差与方差 偏差用于描述模型的拟合能力,方差用来描述模型的稳定性。 当训练度不足的时候,偏差主导模型的泛化误差; 当训练进入后期,模型的拟合能力增强,方差主导模型的泛化误 阅读全文
posted @ 2020-04-14 07:53 飒白 阅读(93) 评论(0) 推荐(0) 编辑
摘要:Q1 过拟合与欠拟合的区别是什么,什么是正则化 欠拟合指的是模型不能够再训练集上获得足够低的「训练误差」,往往由于特征维度过少,导致拟合的函数无法满足训练集,导致误差较大。 过拟合指的是模型训练误差与测试误差之间差距过大;具体来说就是模型在训练集上训练过度,导致泛化能力过差。 「所有为了减少测试误差 阅读全文
posted @ 2020-04-13 20:02 飒白 阅读(88) 评论(0) 推荐(0) 编辑
摘要:Q1 数据预处理主要包括什么 「无量纲化」 无量纲化主要解决数据的「量纲不同」的问题,使不同的数据转换到「同一」规格,常见的方法有「标准化」和「区间缩放法」。标准化的假设前提是特征值服从「正态分布」。区间放缩法利用了「边界值」信息,将特征的取值区间缩放到某个「特点」的范围,列如[0,1]等。 (1) 阅读全文
posted @ 2020-04-13 11:09 飒白 阅读(49) 评论(0) 推荐(0) 编辑
摘要:常用的性能度量指标有:「精确率」、「召回率」、「F1」、「TPR」、「FPR」。 预测为真 预测为假 真实为真 TP(true positive) FN(false negative) 真实为假 FP(false positive) TN(true negative) 「精确率」Precision= 阅读全文
posted @ 2020-04-13 11:07 飒白 阅读(110) 评论(0) 推荐(0) 编辑