Semi-supervised dimensional sentiment analysis with variational autoencoder

论文信息:论文代码,Knowledge-Based Systems 2018.

概述

传统的情感分析方法主要用于对文本的情感极性(例如,积极,消极和中立)或情感类别(例如,喜怒哀乐)进行分类。但是,这些方法都是粗粒度的,可能会忽略不同文本之间的细微情感差异。为了解决这个问题,研究者们提出了维度情感分析(DSA),从文本中挖掘细粒度的情感信息。

尽管有监督的DSA方法目前已经比较成熟了,但是它们需要大量的标注样本训练模型。因此该论文提出了一个基于变分自编码器(VAE)的半监督DSA模型。该模型包含三个模块:编码模块、情感预测模块和解码模块。编码模块通过LSTM将文本编码为向量,情感预测模块从不同维度预测文本情感分值,解码模块构建隐空间并重构文本。

背景知识

变分自编码器的基础知识可以从这里获得。本文对基本变分自编码器和半监督变分自编码器进行了简单讲解,这里给出一个初略的比较图。基本变分自编码器结构如下:

而半监督变分自编码器结构如下图:

方法

该论文提出的DSA模型主要结构如下图所示:

编码模块

假设文本序列为\(s=[w_1,w_2,\dots,w_N]\)\(w_i\)表示第\(i\)个单词。编码模块第一层将每个单词\(w_i\)映射为向量\(e\)。向量\(e\)由两部分拼接组成,分别为词向量\(e^w\)和part-of-speech (POS)向量\(e^p\)。第一层得到的向量序列\([e_1,e_2,\dots,e_N]\)再输入到第二层LSTM中,最终得到文本的隐向量\(\mathbf{s}\)

情感预测模块

情感预测模块也包含两个部分。第一部分是一个两层的Bi-LSTM,以文本向量序列为输入编码得到隐向量\(\mathbf{h}\)。第二部分是一个全连接层,用于预测情感分值\(\mathbf{y}\)

解码模块

解码模块用于重建输入文本。该模块包含三个部分。

第一部分是线性变换模块,它由两个全连接层组成,用于学习变分自编码器的均值向量\(\mu\)和标准差向量\(\sigma\)。这部分输入为编码模块和情感预测模块的输出,即\([\mathbf{y};\mathbf{s}]\)。 因此,\(\mu\)\(\sigma\)的计算公式为:

\[\mu = W_{\mu}[\mathbf{y};\mathbf{s}] + b_{\mu} \\ \sigma = W_{\sigma}[\mathbf{y};\mathbf{s}] + b_{\sigma} \]

第二部分是一个采样模块,它用于从高斯分布\(\mathcal{N}(\mu,diag(\sigma^2))\)中采样隐变量\(z\)。这里同样使用的是变分自编码器中的重参数化技巧。

第三部分是一个LSTM,用于重构输入文本\(s\)。它将隐变量\(z\)作为原始输入,接下来每一步的输入都是前一步的输出。

和一样,该论文的优化目标可以表示如下:

\[\begin{aligned} -\mathcal{L}(x,y) & = ELBO(\phi,\theta) \\ &= \mathbb{E}_{q_{\phi}(z|x,y)}[\log p_{\theta}(x|z)] - KL(q_{\phi}(z|x,y)||p(z|y)) + \log p_{\theta}(y) \end{aligned} \]

但是,由于DSA是回归任务,因此项\(q_{\phi}(y|x)\)的含义与Kingma et al., (2014)中的分类任务不同,并且难以得出\(\log p_{\theta}(x)\)的ELBO。 因此,对于未标注的数据,损失函数\(\mathcal{L}(x,y)\)中的情感得分\(y\)由情感预测模块给出。对于已标注数据,还有一个用于回归损失的项。模型的最终目标函数是:

\[\mathcal{J} = \sum \mathcal{L}(x,y) + \alpha \sum_{(x,y)\in S_l} \mathcal{F}(y) \]

\(\alpha\)用来衡量回归损失的重要性,\(\mathcal{F}\)是回归损失函数,论文中用的是平均绝对误差MAE。

在Kingma et al., (2014)中提出的半监督VAE架构中,标签\(y\)也被当作隐变量,并与\(z\)组合以重构输入样本\(x\)。这篇论文的做法不同,解码模块中的隐变量\(z\)是通过\(x\)\(y\)获得的。因此,隐变量可以同时对文本的情感和语义信息进行编码,这可能对构建高质量的隐空间有利。另外,根据其他研究者的发现,情绪得分通常是不平衡的,并且不遵循高斯分布,这将导致传统半监督VAE模型出现额外的KL散度。这篇论文认为这种方式生成的隐空间可能会更平滑。

在该模型中,未标注数据的情感分数\(y\)由情感预测模块预测,并且解码模块依赖于预测的情感分数以及文本编码来重构输入文本。因此,为了更好地重构输入文本,情绪预测模块对标记和未标记的文本会进行更准确的情绪预测。因此,作者认为这种方法可以利用未标注数据中的有用信息来训练DSA模型。

posted @ 2020-03-26 20:06  WeilongHu  阅读(494)  评论(0编辑  收藏  举报