20180809-0816论文阅读笔记 Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks by Zhejiang Unniversity
ABSTRACT
FM中所有feature interactions的权重都一样,这样一些无用的特征组合会引入噪声进而阻碍模型表现。
于是,本论文的作者们通过区分不同特征组合的重要性改进了FM。
1 Introduction
2 Factorization Machines
3 Attentional Factorization Machines
FM在cross interaction层后用的是sum pooling,而AFM则用的是Attention-based sum pooling
而直接对Attention-based pooling后的结果进行训练,就会遇到和多项式回归一样的问题,如果两个特征没有共现(co-occurence)过,那么对应的Attention score就无法得到训练。解决方法是,在Interaction Layer后,Attention-based sum pooling 之前,添加一个多层MLP网络(即Attention Network)。这样,等于对Attention score们又进行了implicit embedding,通过多层网络反向传播学到的Attention scores们,具有更好的泛化能力,对于没有共现过的特征的score也能有较好的效果。也可以将这部分Attention Net理解为一个自编码器。
之后又在Interaction Layer后添加了dropout层,在attention network上添加了L2正则化。
关于5.3 的mirco-level analysis部分:选了三个test样本,看它们的attention_score和interaction_score。这个是怎么看的?这些难道不应该是一次次迭代慢慢更新的嘛?怎么看具体的样本对应的score?
不懂就问:
-Attention
-Vanilla SGD

浙公网安备 33010602011771号