MCM_算法篇

image

from pixiv


Cellular Automata

参考文章:


贝叶斯定理/推断的运用

贝叶斯推断及其互联网应用(一):定理简介


决策树/随机森林

YouTube: StatQuest with Josh Starmer

简单来说就是根据已有数据的feature和label,预测分类未知feature的label

我都用神经网络了,我学这个干啥


ROC And AUC

Sensitivity and Specificity

参考视频:Machine Learning Fundamentals: Sensitivity and Specificity


Sensitivity 和 Specificity 的作用是判别分类好坏的指标,能够帮助我们分辨使用那种模型来进行预测更好

当我们更看重正面时,用Sensitivity值更高的
当我们更看重负面时,用Specificity值更高的

其中Sensitivity表示成功预测正面的概率
Specificity表示成功预测负面的概率

他们都是通过混淆矩阵计算出来的,混淆矩阵,看下图:

image
image



ROC (Receiver Operator Characteristic), AUC(Area Under Curve)/AUROC(Area Under ROC)

参考视频:ROC and AUC, Clearly Explained!


ROC 是根据不同分类阈值(如一个分类我将概率>0.5的记作正面,反之记作负面;当然我也可以>0.1的记作正面,反之记作负面; 0.5,0.1这些就是不同分类阈值)得到不同的混淆矩阵

从而计算出不同的Sensitivity和Specificity值,并在横纵轴都是0~1的二维图上绘制出来的曲线图

image

Sensivity越大,1-Specificity越小,表示这个分类阈值设置的越好,即分类效果越好

在穷举全部的分类阈值后,得到的ROC曲线,能够反应出这个模型分类效果的好坏

评价这个的标准是:AUC/AUROC

image

AUC score 就是这个面积的大小,其作用是评判模型分类的好坏,并可以为使用哪个模型做出选择



置信度和置信区间

参考视频:Confidence Intervals can be confusing, but with bootstrapping, they are a piece of cake. BAM!

对于许多样本数据,我们是不知道这些数据的真正的均值的(因为我们不可能搜集的到全部的数据,我们只有样本)

但是我们可以猜

对于每一批样本数据,我们取均值

当然,每一次得到的均值可能会不同

当我们取了许多批数据后,我们就可以得到均值的分布,如下:

image


所谓的置信度和置信区间是捆绑在一起的,即置信度是对真正的均值在这个区间中的概率(也可以说有 置信度% 的均值都在这个区间中)

置信区间是 就是个区间而已

image



马尔科夫链

参考视频: Markov Chains Clearly Explained! Part - 1

马尔科夫链 即下一个状态只取决于当前的状态

image
|
|
|
v
image


说起状态的转换我们就会想起:状态转换图

image

上述图表示如:假设今天我吃的是汉堡,那么明天我继续吃汉堡的概率是0.2,吃披萨的概率是0.6,吃热狗的概率是0.2
当然根据概率 P ( Tomorrow汉堡 | Today汉堡)+ P( Tomorrow披萨 | Today汉堡 )+ P( Tomorrow热狗 | Today汉堡 ) = 1

当我们将上述图转换成矩阵:

image
|
|
|
v

再给出当前状态π

image

相乘
|
|
|
v

image

就得到了下一个状态发生的概率

我们重复这个过程
|
|
|
v
image

进行许多次,最终π会收敛在一个不变的数值

image

pytorch编程结果:

image

上述我们初始化矩阵为P,初始状态为s
然后最终收敛



概率统计基本知识

R^2

参考视频:R-squared, Clearly Explained!!!


R2的作用是用来评估两个变量之间的相关性大小,R2越大表示相关越强

R^2的值位于0~1之间

其计算方法如下:

image

Var(mean)=∑(mean值-变量值)^2
Var(line)=∑(line上值-变量值)^2

这里计算的R^2=81% 表示 这两个变量的相关性 解释了 81% 的数据的变化


p值

参考视频:p-values: What they are and how to interpret them


p值是 量化 两种事务确实存在差异的 置信度

p值位于0~1之间

p值越小,表示越确信两者存在差异

那么问题来了,p值到底要多小,我们才能相信两者存在差异呢?

这里有一个阈值0.05,当p值<0.05时,表示我们有95%的置信度认为两者存在差异

posted @ 2024-01-09 19:37  次林梦叶  阅读(31)  评论(0)    收藏  举报