AttentionXML

多标签问题

比如音乐,同一首歌曲有不同的标签,比如流行,pop,R&B,民族等
每个实例所属于的类别不是唯一的,同一个实例可以同时属于多个类别。

引言

为了解决标签数量大的问题,用PLT来将标签分组,即叶子节点是一个真的标签,非叶子节点是一个虚拟标签,然后通过最大化lower bound approximation of the log likelihood,每个叶子节点的二分类器可以分别独立用少量数据训练,

Parabel是使用bag-of-words (BOW)特征的基于树结构的方法,Parabel通过递归分裂聚类 构建一颗二叉平衡树,但是存在问题:树太深就速度慢,用聚类会有标签分到错误的类里,

模型

 

 

训练策略

用k-means聚类构造一棵树

 

 

每层的分类用上面的深度模型训练,从上到下每层训练,

预测的时候beam search

附录

非叶子节点虚拟标签的计算方式:

 

 层级训练具体:

 

 预测阶段具体:

 

posted @ 2022-07-17 21:55  zdxxx  阅读(74)  评论(0编辑  收藏  举报