随笔分类 -  机器学习

摘要:1、利用 auc #encoding=utf8 from itertools import groupby import sys def calc_auc_and_pnr_fast(label,pred): sample = zip(label,pred) ## 根据pred倒排 sample_so 阅读全文
posted @ 2022-05-12 16:50 乐乐章 阅读(263) 评论(0) 推荐(0)
摘要:1.通过ROC曲线面积计算AUC AUC(Area Under Curve)被定义为ROC曲线下的面积。 ROC 曲线横坐标:假正率=FPR=FP/N: 预测为负 and 实际为正 / 实际为负 ROC 曲线纵坐标:真正率=TPR= TP/P :预测为正 and 实际为正 / 实际为正 注意:有相同 阅读全文
posted @ 2021-09-04 18:18 乐乐章 阅读(4254) 评论(0) 推荐(0)
摘要:比赛得分公式如下: 其中,P为Precision , R为 Recall。 GBDT训练基于验证集评价,此时会调用评价函数,XGBoost的best_iteration和best_score均是基于评价函数得出。 评价函数: input: preds和dvalid,即为验证集和验证集上的预测值, r 阅读全文
posted @ 2017-05-27 22:07 乐乐章 阅读(10645) 评论(0) 推荐(0)
摘要:在linear model中,我们对各个特征线性组合,得到linear score,然后确定一个threshold,linear score < threshold 判为负类,linear score > threshold 判为正类。画PR曲线时, 我们可以想象threshold 是不断变化的。首 阅读全文
posted @ 2017-05-08 14:54 乐乐章 阅读(19779) 评论(3) 推荐(0)
摘要:假设要识别照片中的狗的,在一些照片中,包含12只狗的照片和一些猫的照片。算法识别出有8只狗。在确定的8只狗中,5只实际上是狗(真阳性TP),而其余的是猫(假阳性FP)。该程序的精度为5/8,而其召回率为5/12。 Confusion matrix TP: T 是指标记正确, P 是指实际中的类别是P 阅读全文
posted @ 2017-04-10 15:08 乐乐章 阅读(17930) 评论(0) 推荐(0)
摘要:Bootstrap又称自展法,是用小样本估计总体值的一种非参数方法,在进化和生态学研究中应用十分广泛。例如进化树分化节点的自展支持率等。Bootstrap的思想,是生成一系列bootstrap伪样本,每个样本是初始数据有放回抽样。通过对伪样本的计算,获得统计量的分布。例如,要进行1000次boots 阅读全文
posted @ 2017-04-05 21:24 乐乐章 阅读(3335) 评论(0) 推荐(0)