全部文章

8.一次答疑,带你回顾模型评估的所有基础概念

在我刚开始转做 AI 产品经理的时候,遇到过这么一件事儿,我们的用户年龄预测模型训练时候 的 KS 值(模型中用于区分预测正负样本分隔程度的评价指标)很高,但是 OOT
测试的时候 KS 还不足 10。当我拿着结果去找算法同学沟通的时候,他就说了一句,“可能是过拟合了,我再改改”。
也有同学提问说,“不明白为什么 OOT 过高就是模型样本选择的问题?”我这里表达的意思,其实不是 OOT 过高就是模型样本选择有问题,而是说,如果模型在验证集上的 KS 值不错,但到了 OOT 测试的时候 KS 反而不好,就说明,可能是我们当时选择的样本不合理。比如:训练和验证样本抽取的时间过早,很多数据发生了变化,这就导致模型在过去样本上表现好,但在目前样本上不适用。
课后讨论题
问题 2:假设,我们业务方 HR 团队希望你分析每一个员工的离职概率,你觉得用朴素贝叶斯合不合适?为什么?(12 | 朴素贝叶斯:让 AI 告诉你,航班延误险该不该买?)
不同,选择的模型不同。因此,我认为对于这个问题,我们可以分为两个阶段来考虑。
第一个阶段:快速响应,从 0 到 1。我们要结合成本来考量,因为一般公司内部部门的诉求样本比较少,并且他们对准确率的接受程度比较大,他们在意的是从无到有。那么,针
对启动期没有效果指标可以参考的情况,我们可以先用朴素贝叶斯来完成业务方从无到有的需求,做到快速响应。
第二个阶段:根据实际情况,考虑资源倾斜。这个阶段,我们就要看模型的实际使用情况。不过,一般来说,内部部门的项目就到此为止。但如果你是在众包机构工作,就需要
切实投入更多的资源,来训练一个模型解决资源倾斜的问题。希望同学们可以根据我提供的思路,来继续深入思考一下这个问题。
 
 
posted @ 2025-02-26 15:00  指尖下的世界  阅读(15)  评论(0)    收藏  举报