快手观看时长建模:CREAD

将观看时长作为连续值预测,会带来“回归问题”,即会放大对异常值和潜在预测偏差的敏感性,常见的一种方法是把时长分段转为分类问题来预估,CREAD正是提出了一种回归转分类的处理方法。

CREAD的流程如下图所示,把观看时长分为M个桶,在每个桶内预估 P(y>t|x)的概率

 经过推导可以得到最后的观看时长计算方法:

 

论文亮点:

1. 对时长分桶预估之后不仅有分类损失,还加了两个类似保序回归的损失

 loss包含3个部分:

(1) classification loss 

(2)restoration loss 

论文指出这里采用了Huber loss

(3)保序loss

 

2. 目前常用的分桶方法是等频分桶和等距分桶,等频分桶的缺点是尾部桶距过大放大恢复误差,等距分桶的缺点是尾部桶内样本过少导致学习误差过大,CREAD提出一种平衡等距分桶和等频分桶误差方法的分桶方法

 

参考资料:

https://arxiv.org/pdf/2401.07521

AAAI'24「快手」观看时长建模:CREAD 

posted @ 2024-11-26 14:59  AI_Engineer  阅读(944)  评论(0)    收藏  举报