Rethinking Action Spaces for Reinforcement Learning in End-to-end Dialog Agents with Latent Variable Models

Naacl 2019

Abstract

为对话定义action space并通过强化学习来优化其决策的过程是一个长期以来的挑战。通常的做法是使用手工来定义对话动作或者词表作为动作空间，两者都有各自的局限性。本文提出了一种潜在动作框架，将端到端agent的动作空间作为潜在变量，并应用非监督方法，从数据中归纳出自己的动作空间。

综合实验研究了连续型和离散型的动作类型以及两种基于随机变分推理的优化方法。结果表明，在DealOrNoDeal和MultiWoz对话框上，所提出的潜在动作比以往的词级策略梯度方法取得了更好的性能改进。

Introduction

本文提出的模型 Latent Action Reinforcement Learning (LaRL)，克服了端到端对话模型中基于word-level RL的限制，以无监督的方式结合了传统模块化方法的优点。
关键的想法是开发一种可以自己发现对话动作的E2E模型。这些动作必须具有足够的表达能力，以捕获复杂领域中的回复 (即具有表示大量动作的能力)，从而将话语层面的决策过程与自然语言生成分离开来。然后，任何RL方法都可以应用到这个诱导的动作空间中来代替词级别的输出。所以本文提出了一种提供潜在变量的对话框架，研究了从对话数据中诱导潜在动作空间的几种方法。

本文还进一步提出 (1)一种新的训练目标，其性能优于对话生成中使用的典型证据下界;(2)在解码器中集成离散潜在变量的注意机制，以更好地对长响应建模。

本文在DealOrNoDeal (Lewis et al.， 2017)和MultiWoz (Budzianowski et al.， 2018)两个数据集进行了实验。
结果表明，在学习对话策略时，LaRL明显比word level RL更有效，而且不会产生不可理解的语言。
本文的模型在MultiWoz上实现了18.2%的改进，并在DealOrNoDeal上发现了新颖多样的谈判策略。

除了较强的实证改进外，本文的模型分析还展示了一些新的见解，例如减少潜在动作空间中的暴露偏差至关重要，离散的潜在动作比连续的更适合作为RL agent的动作空间。

本文的工作不同于以往的工作有两个原因:
(1)以前的工作中潜在的动作只是辅助的，小规模的，大多是在监督或半监督的环境中学习的。本文研究的是潜在变量的无监督学习，学习的变量具有足够的表达能力，能够独立捕捉整个动作空间。
(2)据本文所知，本文的工作是对对话系统中使用潜在变量进行RL策略优化的首次全面研究。

Baseline
端到端的系统响应生成可视为一个基于条件的生成任务，该任务使用神经网络的编解码器对条件分布$p(x|c)$进行建模，其中$c$为观察到的对话上下文，$x$为系统对上下文的响应。对话上下文可以是原始对话历史或者文本上下文. RL训练通常分为2步: 基于监督学习的预训练，和基于强化学习策略梯度算法.
具体来说,监督学习这一步来最大化对数似然值 ($\theta$是模型参数):

然后接下来的RL这一步使用策略梯度算法，更新与任务目标相关的模型参数。假设有一个agent可以与之交互的环境，并且在对话的每个轮次$t$处都有一个轮次奖励$r_t$。本文得到在模型参数$\theta$下，预期的折扣回报$J(θ)= E[\sum^T_0 \gamma ^t r_t]$, 折现因子$\gamma$在[0,1]之间，$T$为对话的长度(总轮数)。通常在奖励r上减去参数b来降低策略梯度的方差

$Rt=E[\sum^{T-t}_{k = 0} \gamma ^t (r_{t+k}-b)]$ .

Word-level Reinforcement Learning
fg 1
如图1所示，world-level RL将每个输出单词视为一个action step，其策略梯度为

其中$U_t$为第t轮回复中的token数量，j为回复中的单词index。显然Eq 2的动作空间非常大，即|V| (词表size)，学习视野较长，即$TU$。之前的工作发现直接应用该式会导致解码器不收敛。常用的解决方法是按一定比例交替使用带监督学习的Eq 2。将这个比率表示为RL:SL=A:B，这意味着, 对于每A次策略梯度更新，运行B次监督学习进行更新。对于只使用策略梯度而不涉及监督学习的情况，则RL:SL=off。

Model

Latent Action Reinforcement Learning

本文提出的LARL框架如图2所示，在回复生成过程中引入了一个潜在变量$z$。则现在的条件分布$p (x|c) = p (x|z) p (z|c)$
生成的过程为:
(1) 给定一个对话上下文 $c$, 首先依照$p{θ_e}(z|c)$抽样一个潜在动作 $z$
(2) 基于$p{θd} (x|z)$，即基于z抽样生成的响应x, 其中$p{θe}$是对话编码器网络, $p{θ_d}$是响应的解码器网络。在上述设置下，LaRL将潜在变量$z$作为其动作空间，而不是响应 $x$中输出单词。之后可以在潜在动作空间中应用reinforce:

与Eq 2相比，LaRL的不同之处在于:

将范围从$TU$缩短到$T$。
潜在动作空间设计为低维，比V小得多。
策略梯度只更新编码器$θe$, 而解码器$θ_d$保持不变。
这些属性减少了对话策略优化的难度，并将高层决策与自然语言生成分离开。$给定上下文$c$, $p{θe}$ 负责选择最好的潜在动作, 而$p{θ_d}$仅负责将$z$转换为表层形式的单词。本文的公式也为实验各种类型的模型学习方法提供了一个灵活的框架。
在本文中，本文主要关注两个关键方面:潜在变量$z$的类型, 以及在有监督的预训练阶段, 优化学习$z$的方法。

Types of Latent Actions
以往的研究中使用了两类潜在变量:
连续各向同性高斯分布(Serban et al.， 2017b)和多元分类分布(Zhao et al.， 2018)。这两种类型都与本文的LaRL框架兼容，定义如下：

Gaussian Latent Actions
高斯潜在动作遵循$M$维多元对角协方差矩阵的高斯分布, 即$z\sim N(\mu ,\sigma^2I )$。
编码器$p{θ_e}$由两部分构成:一个上下文编码器$F$, 用神经网络编码对话上下文$c$为一个向量表示$h$, 用一个前馈网络$pai$将$h$映射为$\mu$和$\sigma$ 。流程定义如下：

然后将得到的$z$作为解码器的初始状态用于最后响应的生成。
使用$p\theta(z|c) = N(z; \mu ,\sigma^2I)$来计算Eq 3中的策略梯度更新.
Categorical Latent Actions
分类潜在动作是$M$个独立的$k$向分类随机变量。每个$z_m$都有自己的token embedding，将潜在的符号映射到向量空间$E_m \epsilon R^{K×D}$，其中$m \ epsilon [1,M]$， D为embedding size。因此 M个潜在动作可以表示指数级的，$K^M$个，不同且唯一的组合，这使得它具有足够的表现力，可以在复杂的领域中建模对话动作。类似于高斯潜在动作，我们有

与高斯潜在动作不同, 分类潜在动作矩阵编码后得到大小为 $R^{M×D}$ 的矩阵, 而解码器的初始状态是一个大小为 $R^D$ 的向量。以前的工作将潜在的emdedding相加，来集成这个矩阵和编码器, 表示作为求和融合。
这种方法的一个限制是，它可能会丢失每个潜在维度中的细粒度顺序信息，并且在涉及多个对话动作的长响应方面存在问题。因此，本文提出一种新的方法，Attention Fusion，来结合分类潜在的动作与解码器。将注意力机制(Luong et al.， 2015)应用于潜在的动作。设i为解码时的步长索引。然后有:

Optimization Approaches

现在给定一个训练数据集{x, c}, 常规的优化方法是通过最大化其变分下界的随机变分推理（Full ELBO）

补充：在ELBO其中q是关于z的一个任意概率分布。
对任意分布q的选择来说，L提供了似然函数的一个下界。
越好地近似p(z∣x,c)的分布q(z∣x，c)，得到的下界就越紧。
将推断问题看作是找一个分布q使得L最大的过程。

$q{\gamma }(z|x, c)$ 为需要训练的神经网络，来逼近 $q(z|x, c)$ 和$q(z|c)$ 和 $p (x|z)$ 的后验分布。
本文认为上式有局限性，解码器只看到 $z$ 从 $q(z|x, c)$ 采样，但未经历过从 $p\theta(z|c)$ 采样, 所以提出了以下优化函数（Lite ELBO）：

本质上，简化目标将后验网络设置为与编码器相同，即 $q\gamma(z|x, c) = p{θe} (z|c)$, 但是这也使得潜在空间缺少正则化，实验中表明，如果只最大化$p{p_{(z|c})}(x|z)$ 会存在过拟合。因此添加了额外的正则化项, 鼓励后验与先验分布能够相似, β是一介于0和1之间的超参数。将分类潜在动作的 $p(z)$ 设为平均值，即 $p(z) = 1/K$ ；将高斯潜在动作的先验设为 $N(0,I)$ .

Experiment

Dataset

DealOrNoDeal是一个谈判数据集，包含基于2236个不同场景的5805个对话。本文提出252个测试环境场景，并从训练集中随机抽取400个场景进行验证。从混乱度(PPL)、奖励、一致性和多样性四个方面对研究结果进行了评价。PPL帮助确定哪个模型产生的与人更相似的响应，同时奖励和一致性评估模型的谈判强度。多样性表示该模型是发现了一种新的语篇级策略，还是只是重复了单调响应。
Multiwoz是一个插槽填充数据集，它包含10438个对话, 涉及6个不同的域中。8438个对话用于训练，各1000个用于验证和测试。由于该数据集之前没有用户模拟器，为了与之前的技术水平进行公平的比较，本文将重点放在中提出的对话-上下文-文本生成任务上。该任务要求在对话中的每个系统轮次生成响应对话。结果从三个方面进行评估:BLEU，Inform Rate和成功率。BLEU score检查响应层次词汇相似性，而Inform rate 和成功率度量模型是否在dialog级别是否回答问题并提供所有请求的信息。

Conclusion
最后，本文为E2E dialogue agent中的RL提出了一个潜在变量的动作空间。并对两种对话任务进行了评估，结果表明，本文的模型取得了优异的性能，并创造了一个MultiWoz最新的成功率。广泛的分析使我们能够深入了解如何正确地训练潜在变量，这些变量可以作为agent的动作空间，能够以无监督的方式创建抽象的动作。

# Latent Variable, Reinforcement Learning