郑州大学学报(理学版)  2019, Vol. 51 Issue (2): 47-51  DOI: 10.13705/j.issn.1671-6841.2018216

引用本文  

刘欢, 徐健, 李寿山. 基于变分自编码器的情感回归半监督领域适应方法[J]. 郑州大学学报(理学版), 2019, 51(2): 47-51.
LIU Huan, XU Jian, LI Shoushan. A Semi-supervised Domain Adaptation Method of Sentiment Regression on Variational Autoencoder[J]. Journal of Zhengzhou University(Natural Science Edition), 2019, 51(2): 47-51.

基金项目

国家自然科学基金项目(61331011,61375073)

通信作者

李寿山(1980—),男,江苏扬州人,教授,主要从事情感分析、自然语言处理研究,E-mail:lishoushan@suda.edu.cn

作者简介

刘欢(1993—),女,江苏扬州人,硕士研究生,主要从事情感分析、自然语言处理研究,E-mail:hliu0909@stu.suda.edu.cn

文章历史

收稿日期:2018-07-16
基于变分自编码器的情感回归半监督领域适应方法
刘欢 , 徐健 , 李寿山     
苏州大学 自然语言处理实验室 江苏 苏州 215006
摘要:提出一个新的情感回归半监督领域适应方法.首先使用长短期记忆网络(long short-term memory, LSTM)实现回归模型,其次使用变分自编码器(variational autoencoder, VAE)实现生成模型,最后联合学习LSTM回归模型和VAE生成模型,实现基于变分自编码器的情感回归半监督领域适应模型.实验结果表明,所提出的基于变分自编码器的情感回归半监督领域适应方法较其他基准方法能有效提高实验性能.
关键词变分自编码器    情感回归    半监督    领域适应    
A Semi-supervised Domain Adaptation Method of Sentiment Regression on Variational Autoencoder
LIU Huan , XU Jian , LI Shoushan     
Natural Language Processing Lab, Soochow University, Suzhou 215006, China
Abstract: A novel approach was proposed for semi-supervised domain adaptation of sentiment regression, namely VAE-R. In VAE-R model, a long short-term memory (LSTM) network was employed to achieve a regression model, and then a generation model based on variational autoencoder (VAE). In the learning process, the LSTM regression model and the VAE generation model were jointly learned. Empirical studies had demonstrated the effectiveness of the proposed approach in the semi-supervised domain adaptation.
Key words: VAE    sentiment regression    semi-supervised    domain adaptation    
0 引言

随着社交媒体的兴起,越来越多的用户在网络上发布带有情感的文本(例如微博,评论等),为情感分析等研究任务提供了语料.本文讨论的情感回归是情感分析的一项子任务,旨在对文本的情感自动预测并给出实数值评分.近些年来,情感回归的重要性与日俱增[1],引起广泛学术关注.

现有关于情感回归的研究主要集中在机器学习方法上,特别是深度学习方法[2-4].该方法利用大量的标注样本来训练回归模型,并取得较好效果.然而,这种方法的主要缺点是需要大量人工标注语料.在很多实际应用中,我们在某个领域(即源领域)包含大量标注样本,但是我们感兴趣的领域(即目标领域)包含较少甚至没有标注样本.例如,我们可能在书籍领域有大量标注样本,在电子产品领域只有未标注样本,而我们对电子评论领域的情感分析很感兴趣.正是由于不同领域样本分布的多样性,在一个领域训练得到的回归模型可能在其他领域性能不佳,而给每个感兴趣的领域都去标注样本又非常耗时耗力.因此,当目标领域标注样本较少甚至没有标注样本而只有未标注样本时,传统的基于大量标注语料的情感回归方法无法直接运用.

为了解决上述问题,许多情感分析的领域适应(跨领域)方法被提出,例如SCL[5]、SDA[6]等.领域适应方法的目标是将源领域的知识迁移到目标领域,以提升目标领域的性能.领域适应方法主要分为两类:监督领域适应方法和半监督领域适应方法.两者在源领域都有大量标注样本,主要区别在于,监督领域适应方法在目标领域只有少量标注样本,不能通过训练得到一个好的模型; 而半监督领域适应方法在目标领域没有标注样本,只有未标注样本,与监督领域适应方法相比难度更大.本文着重讨论情感回归的半监督领域适应任务,并提出了一个基于深度生成模型的情感回归半监督领域适应方法.具体而言,首先使用长短期记忆网络(LSTM)来实现回归模型; 其次我们用变分自编码器(VAE)来实现生成模型; 最后联合学习LSTM回归模型和VAE生成模型,实现基于变分自编码器的半监督情感回归领域适应方法.

1 基于变分自编码器的情感回归半监督领域适应方法 1.1 基本的自编码器

自编码器是一种无监督神经网络,用来获取输入向量的隐藏表示并重构输入[7].自编码器可以被看作是一种特殊的神经网络,该神经网络共有3层:输入层、隐藏层和重构层,自编码器包含编码器和解码器两部分.

编码器f将输入xRm×1映射为隐藏表示zRk×1,其中m表示输入维度,k表示隐藏层的维度.具体公式$ z = f\left( x \right) = {s_e}\left( {Wx + b} \right)$,其中:se表示编码器的非线性激活函数; W是线性变换的参数; b是偏差项.

解码器g将隐藏表示z进行重构,$ g\left( z \right) = {s_d}\left( {W\prime z + b\prime } \right)$,与编码器类似,解码器的激活函数是sd,参数是{W′, b′}.

目标函数是最小化平均重构误差,参数为{W, b}和{W′, b′},$L = \mathop {{\rm{min}}}\limits_{W, b, W\prime , b\prime } \sum\limits_{i = 1}^N {} \parallel {x_i} - g(f({x_i}))\parallel _2^2 $,其中:xi表示N个训练样本中的第i个样本.参数WbW′、b′可以通过随机梯度下降优化.通过最小化重构误差,我们希望隐藏层能尽可能对原始输入进行重构.

1.2 基于变分自编码器的情感回归半监督领域适应方法

提出了一个基于变分自编码器的情感回归半监督领域适应方法,即VAE-R.图 1是所提出方法的框架结构.我们的方法主要由3个部分组成:回归器qφ(y|x)、编码器qφ(z|x, y)和解码器pθ(x|y, z).这些部分的具体介绍如图 1.

图 1 基于变分自编码器的情感回归半监督领域适应方法框架 Fig. 1 Framework of the semi-supervised domain adaptation method of sentiment regression on variational autoencoder

回归器:如图 1中的(a)所示,我们使用LSTM来获取评论文本的语义表示,再通过全连接层和输出层得到回归值,$y = ReLU({W^{\rm{T}}}LSTM\left( x \right)) $,其中WTLSTM(x)的输出维度是1,并且由于情感回归值非负数,所以输出层激活函数使用修正线性单元(rectified linear units,ReLU).

编码器:如图 1中的(b)所示,每组数据(x, y)被编码到隐藏空间.具体而言,隐变量z由对角高斯分布qφ(z|x, y)参数化:$\hat x = {f_{enc}}\left( x \right), {q_\varphi }\left( {z|x, y} \right) = N(\mu \left( {\hat x, y} \right), diag({\sigma ^2}\left( {\hat x, y} \right))), z \sim {q_\phi }\left( {z|x, y} \right) $, 其中fenc(·)是编码函数.在我们的方法中,编码函数用一个LSTM层实现.N(·)表示重新参数化的高斯分布[8-9].

解码器:如图 1中的(c)所示,解码器是给定隐变量z和实数值y,生成x的概率分布的条件生成模型,$ {p_\theta }\left( {x|y, z} \right) = D(x|{f_{dec}}\left( {y, z} \right))$,其中fdec(·)是解码函数,用来参数化概率分布DD是输入数据的高斯概率分布.

为了实现解码器,本章采用了一种条件LSTM结构[10],条件LSTM在每个时间步将词嵌入和评分张量拼接.该条件LSTM已被广泛应用[11-13],我们将这种网络称作C-LSTM.C-LSTM将词嵌入和评分值作为输入,我们修改了LSTM单元的公式,将评分y加到输入门、遗忘门和输出门.具体公式如下:

$ {i_t} = \sigma \left( {{W_i}{x_t} + {U_i}{h_{t - 1}} + {V_i}y} \right), $ (1)
$ {f_t} = \sigma \left( {{W_f}{x_t} + {U_f}{h_{t - 1}} + {V_f}y} \right), $ (2)
$ {o_t} = \sigma \left( {{W_o}{x_t} + {U_o}{h_{t - 1}} + {V_o}y} \right), $ (3)
$ {{\tilde c}_t} = \mathit{tanh}\left( {{W_c}{x_t} + {U_c}{h_{t - 1}} + {V_c}y} \right), $ (4)
$ {c_t} = {f_t} \odot {c_{t - 1}} + {i_t} \odot {{\tilde c}_t}, $ (5)
$ {h_t} = {o_t} \odot \mathit{tanh}\left( {{c_t}} \right), $ (6)

其中xt表示当前t时刻的输入,通过公式(4)计算出记忆单元的候选向量$ {{\mathit{\boldsymbol{\tilde c}}}_t}$,再经过公式(5)计算t时刻的记忆单元ct,由公式(6)计算出的htt时刻LSTM单元输出的信息; σ是激活函数sigmoid; ⊙是点乘运算.

VAE-R模型通过源领域标注样本和目标领域未标注样本的联合训练来更新模型参数.目标函数定义为

$ J = \sum\limits_{\left( {x,y} \right) \in {T_s}} {L\left( {x,y} \right)} + \sum\limits_{x \in {T_t}} {U\left( x \right)} + \alpha {E_{\left( {x,y} \right) \in {T_t}}}\left[ { - \log {q_\varphi }\left( {y\left| x \right.} \right)} \right], $ (7)

其中:Ts是源领域标注样本; Tt是目标领域未标注样本; α是一个可调超参数,表示源领域回归模型损失函数所占权重.

L(x, y)是源领域标注样本的重构损失函数,L(x, y)定义为

$ L\left( {x,y} \right) = {D_{KL}}\left( {{q_\phi }\left( {z\left| {x,y} \right.} \right)\left\| {p\left( z \right)} \right.} \right) - \log {p_\theta }\left( y \right) - {E_{{q_\phi }}}\left( {z\left| {x,y} \right.} \right)\left[ {\log {p_\theta }\left( {x\left| {y,z} \right.} \right)} \right], $ (8)

其中:等号后面第一项表示先验分布p(z)和隐变量后验分布$ {q_\phi }\left( {z|x, y} \right)$的KL散度(Kullback-Leibler divergence); 第二项表示隐变量z的条件概率的期望.

U(x)是目标领域未标注样本的重构损失函数,U(x)定义为

$ U\left( x \right) = \sum\limits_y {{q_\phi }\left( {y\left| x \right.} \right)\left( {L\left( {x,y} \right) - H\left( {{q_\phi }\left( {y\left| x \right.} \right)} \right)} \right)} , $ (9)

其中: $H({q_\phi }\left( {y|x} \right)) $表示回归器${q_\phi }\left( {y|x} \right) $的信息熵.

从上面的损失函数我们可以发现回归器${q_\phi }\left( {y|x} \right) $、编码器${q_\phi }\left( {z|x, y} \right) $和解码器$ {p_\theta }\left( {x|y, z} \right)$是VAE-R的3个关键组成部分.

2 实验结果与分析 2.1 实验设置

数据设置:我们的实验数据来自Mcauley[14]收集的亚马逊的产品评论语料.评论语料共有4个领域(book,CD,electronic,kitchen),每个领域的评分范围都是1~5分.当4个领域中的1个领域作为源领域时,其他3个领域中的某一个领域作为目标领域.我们从源领域和目标领域的每1个评分选取2 000个样本.我们用源领域80%的标注样本和目标领域80%的未标注样本作为训练集,目标领域的20%的样本作为测试集.

特征表示:我们采用word2vec的skip-gram算法(gensim实现),对整个数据集进行预训练以获得词嵌入.Embedding维度为100.

基本预测方法:LSTM作为我们的基本预测方法,用Keras实现.LSTM的超参数用网格搜索的方法在验证集上微调得到,其中LSTM层输出维度为128,全连接层输出维度为64,Dropout概率为0.5.

评价准则:本文采用决定系数(R2)作为情感回归性能的评价标准.R2也被称之为拟合优度,表示自变量对因变量的解释程度,取值范围为小于1的实数.换句话说,决定系数R2可以作为模型预测值与实际观测值拟合程度的度量标准,R2的值越接近1说明训练模型的预测值与实际观测值拟合程度越高.决定系数R2的计算方法为

$ {R^2} = 1 - \frac{{S{S_{err}}}}{{S{S_{tot}}}},S{S_{tot}} = \sum\limits_i {{{\left( {{y_i} - \bar y} \right)}^2}} ,S{S_{err}} = \sum\limits_i {{{\left( {{y_i} - {f_i}} \right)}^2}} ,\bar y = \frac{1}{n}\sum\limits_{i = 1}^n {{y_i}} , $

其中:yi是第i个样本的真实标签值; fi是第i个样本的预测值[15].

2.2 实验结果

为了更好分析VAE-R方法,我们实现了几个情感回归领域适应方法,这些方法的介绍如下.

Baseline: LSTM回归模型,用源领域标注样本训练得到回归器,再用目标领域测试样本进行测试.

SCL:这是Blitzer等[5]提出的名为structural correspondence learning(SCL)的领域适应方法.该方法的主要思想是利用目标领域的未标注数据获得数据的低维联合表示.

SDA:这是Glorot等[6]提出的名为stacked denoising auto-encoders(SDA)的领域适应方法.该方法的主要思想是随机损坏输入数据,通过SDA神经网络训练深度生成模型,最后该模型的中间表示作为输入,用支持向量回归(SVR)训练得到回归器.

VAE-R:这是我们的情感回归半监督领域适应方法,该方法联合学习变分自编码器和回归器.

表 1展示了各个方法的R2结果,箭头左边表示源领域,右边表示目标领域.

表 1 各领域适应方法的R2结果 Tab. 1 R2 results for adaptation methods in various domains

表 1可知:SCL在所有的实验设置中都高于Baseline.这个实验结果表明,SCL方法不仅适用于分类模型的领域适应任务,同样适用于回归模型的领域适应任务.

SDA方法总体上好于Baseline和SCL方法,只有在设置CD→book、electronic→kitchen和kitchen→electronic中表现不佳.在后两个实验设置中结果较差,可能是由于electronic和kitchen领域的情感表达方式差异较大,SDA很难学到通用情感表示.

在所有的方法中,我们的VAE-R模型在所有的实验设置中都表现最好.与Baseline方法相比,目标领域回归性能得到大幅提高,说明VAE-R模型能充分利用源领域标注数据并学到了相关信息; 与SCL方法相比,我们方法的R2平均提高约5.3%,证明了深度学习在情感回归半监督领域适应任务的有效性; 与SDA方法相比,我们方法的R2平均提高约4.3%,说明虽然同样使用到深度学习模型,但是SDA方法在学习输入的隐藏表示时,没有利用源领域样本的标签,而我们的VAE-R方法将回归模型和生成模型联合训练,充分利用了源领域标注样本的标签信息.

3 结语

本文提出了一个基于变分自编码器的情感回归半监督领域适应方法.具体实现为,首先使用长短期记忆网络(LSTM)来实现回归模型,其次用变分自编码器(VAE)来实现生成模型,最后联合学习LSTM回归模型和VAE生成模型,实现基于变分自编码器的情感回归半监督领域适应方法.实验结果表明,我们的方法比几个经典方法性能要好.

参考文献
[1]
PANG B, LEE L. Opinion mining and sentiment analysis[J]. Foundations and trends® in information retrieval, 2008, 2(1/2): 1-135. (0)
[2]
LIU P, QIU X, HUANG X. Adversarial multi-task learning for text classification[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Vanciuver, 2017: 1-10. (0)
[3]
GEHRING J, AULI M, GRANGIER D, et al. A convolutional encoder model for neural machine translation[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Vanciuver, 2017: 123-135. (0)
[4]
CUI Y, CHEN Z, WEI S, et al. Attention-over-attention neural networks for reading comprehension[EB/OL]. (2017-06-06)[2018-07-01]. https://arxiv.org/pdf/1607.04423.pdf. (0)
[5]
BLITZER J, DREDZE M, PEREIRA F. Biographies, bollywood, boom-boxes and blenders: domain adaptation for sentiment classification[C]//Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics. Prague, 2007, 31(2): 187-205. (0)
[6]
GLOROT X, BORDES A, BENGIO Y. Domain adaptation for large-scale sentiment classification: a deep learning approach[C]//International Conference on Machine Learning. Omnipress, 2011: 513-520. (0)
[7]
BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer-wise training of deep networks[C]//Advances in Neural Information Processing Systems. Vancouver, 2007: 153-160. (0)
[8]
KINGMA D, MOHAMED S, REZENDE D, et al. Semi-supervised learning with deep generative models[C]//Advances in Neural Information Processing Systems. Montréal, 2014: 3581-3589. (0)
[9]
REZENDE D, MOHAMED S, WIERSTRA D. Stochastic backpropagation and approximate inference in deep generative models[C]//Proceedings of International Conference on Machine Learning. Beijing, 2014: 1278-1286. (0)
[10]
XU W, SUN H, DENG C, et al. Variational autoencoder for semi-supervised text classification[C]//Proceedings of the Artifitial Intelligence. San Francisco, 2017: 781-790. (0)
[11]
WEN T, GASIC M, MRKSIC N, et al. Semantically conditioned LSTM-based natural language generation for spoken dialogue systems[C]//Proceedings of the Empirical Methods in Natural Language. Lisbon, 2015: 1711-1721. (0)
[12]
GHOSH S, VINYALS O, STROPE B, et al. Contextual LSTM (CLSTM) models for large scale nlp tasks[EB/OL]. (2016-02-19)[2018-07-01]. http://cn.arxiv.org/pdf/1602.06291. (0)
[13]
SERBAN I V, SORDONI A, BENGIO Y, et al. Building end-to-end dialogue systems using generative hierarchical neural network models[C]//Thirtieth AAAI Conference on Artificial Intelligence. Phoenix, 2016: 3776-3783. (0)
[14]
MCAULEY J, PANDEY R, LESKOVEC J. Inferring networks of substitutable and complementary products[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Sydney, 2015: 785-794. (0)
[15]
CAMERON A, WINDMEIJER F. R-squared measures for count data regression models with applications to health care utilization[J]. Journal of business & economic statistics, 1996, 14(2): 209-220. (0)