LPF: A Language-Prior Feedback Objective Function forDe-biased Visual Question Answering

作者创新点及其贡献

作者通过纯问题分支网络或得语言偏见，根据语言的偏见在主网络中为每个训练样本分配动态权重，实现消除语言偏见的效果

作者所提出的语言先验反馈目标函数（LPF），当从不平衡的VQA数据集中学习时，该函数能自动将训练损失调整为一个平衡形式，并提出一个通用框架，利用纯问题分支计算不同答案的动态权重。
在VQA-CP v2数据集中强于基线网络，并能与当前最新的网络进行竞争。

\[L_{QO}=-\frac{1}{N}∑_{i=1}^{N}log⁡(softmax(f_{VQA}(v_i,q_i)))[a_i] \]

作者将经过LSTM或GRU等的问题编码器生成的问题嵌入经过由MLP层组成的网络得到文本偏见。

损失函数如下：

\[L_{QO}=-\frac{1}{N}∑_{i=1}^{N}log⁡(softmax(f_{QO}(q_i)))[a_i] \]

根据人工标记真实的答案和纯问题模型的softmax层输出计算\(a_i\)

\[a_i=softmax(f_{QO}(q_i))[a_i]=\frac{exp(f_{QO}(q_i))[a_i]}{∑_{j=1}^{|A|}exp(f_{QO}(q_i))[a_j]} \]

通过\(a_i\)计算出形式化调制因子\(\beta_i\)，其中\(\gamma\)为超参数:

\[\beta_i=(1-a_i)^\gamma,\gamma\geq0 \]

最后通过调制因子\(\beta_i\)控制损失函数的权重：

\[L_{LPF}=-\frac{1}{N}∑_{i=1}^{N}\beta_ilog(softmax(f_{VQA}(v_i,q_i)))[a_i] \]

如下图所示，如果仅通过纯问题模型进行计算出来的答案，其\(a_i\)比较大，因此其\(\beta_i\)较小，使得其减小\(L_{LPF}\)的权重。

posted @ 2021-06-18 10:18 BONiii 阅读(270) 评论(0) 收藏举报

刷新页面返回顶部