ACL2020 概览目前放出的几篇文章——sih出品,转载请注明出处。
(也放在了知乎一份,滴~传送门在这里,欢迎关注我的知乎呀~)
https://zhuanlan.zhihu.com/p/127062292
Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection
https://arxiv.org/pdf/2004.02015
解释生成式神经网络在现实世界中的应用。在自然语言处理中,现有生成式方法从输入文本中选择单词或短语作为解释,但是忽略了它们之间的相互作用。在本文工作中,通过检测特征交互来构建层次性的解释。 这种解释可视化了单词和短语如何在层次结构的不同级别上组合,这可以帮助用户理解黑盒模型的决策。 通过自动和人工评估,在两个基准数据集上使用三个神经文本分类器(LSTM,CNN和BERT)对所提出的方法进行了评估。
Unsupervised Domain Clusters in Pretrained Language Models
https://arxiv.org/pdf/2004.02105
NLP中“in-domain data”的概念通常过于简单和模糊,因为文本数据在许多细微的方面(例如主题,样式或形式级别)都有所不同。 此外,域标签很多时候都不可用,这使得构建特定于域的系统具有挑战性。 本文则表明,大量的预训练语言模型隐式地学习了句子的表示形式,这些表示形式在没有监督的情况下按域聚类-暗含了文本数据中域的data-driven的简单定义。 本文利用此属性,并基于此类模型提出了域数据选择方法,该方法仅需要一小部分域内单语言数据。 文中评估了在五个不同领域中进行神经机器翻译的数据选择方法,它们在性能上均优于通过BLEU以及通过精确度和句子选择召回来衡量的既定方法。
Data Manipulation: Towards Effective Instance Learning for Neural Dialogue Generation via Learning to Augment and Reweight (与sih的相似)
https://arxiv.org/abs/2004.02594
当前的对话模型都是数据驱动人类对话数据中学习。 因此,可靠的训练语料库是构建健壮且well-behaved的对话模型的关键。 然而,由于人类对话的开放性,用户生成的训练数据的质量差异很大,有效的训练样本通常不足,且经常出现噪声样本。 这阻碍了那些数据驱动的神经对话模型的学习。 因此,有效的对话学习不仅需要更可靠的学习样本,而且还需要更少的嘈杂样本。 在本文中提出了一种数据处理框架,通过扩大和突出有效的学习样本并同时减少无效样本的影响,主动地将数据分布重塑为可靠的样本。Data Manipulation模型选择性地增加训练样本并为每个实例分配重要性权重以重新构造训练数据。需要注意的是, 本文建议的数据操作框架是完全由数据驱动的,并且是可学习的。 它不仅可以操纵训练样本来优化对话生成模型,还可以通过使用验证样本进行梯度下降来学习提高其操纵技巧。实验表明,本文的框架可以从13个自动评估指标和人工判断方面提高对话的生成性能。
具体模型结构:
Hooks in the Headline: Learning to Generate Headlines with Controlled Styles
当前的摘要系统只能产生简单的基于事实的标题,但不能满足实际需求,去创建令人难忘的标题以增加曝光率。 本文提出了一项新任务,即Stylistic Headline Generation (SHG),以三种形式(humor,romance and clickbait来丰富标题,以吸引更多读者。本文使用没有样式的文章标题对(只有标准的标题摘要数据集和单样式语料库),具体方法叫做-TitleStylist通过将摘要和重构任务组合到一个多任务框架中来生成样式特定的标题。此外还引入了一种新颖的参数共享方案来进一步从数据中分离文本样式。 通过自动评估和人为评估,证明了TitleStylist可以生成具有与以下三种目标样式相关的标题:humor,romance and clickbait。 本文的模型产生标题的吸引力得分比最新的摘要模型的吸引力得分高9.68%,甚至超过了人工撰写的参考文献。
具体模型结构:(Transformer结构,Multitask training)
other recent ACL:
An analysis of the utility of explicit negative examples to improve the syntactic abilities of neural language models
https://arxiv.org/pdf/2004.02451
A Relational Memory-based Embedding Model for Triple Classification and Search Personalization
https://arxiv.org/pdf/1907.06080
Hierarchical Entity Typing via Multi-level Learning to Rank
https://arxiv.org/pdf/2004.02286
FastBERT: a Self-distilling BERT with Adaptive Inference Time
https://arxiv.org/pdf/2004.02178
A Novel Hierarchical Binary Tagging Framework for Relational Triple Extraction