深入理解LSTM词义消歧

Minh Le,Marten Postma,Jacopo Urbani和Piek Vossen

阿姆斯特丹自由大学语言,文学和传播系

阿姆斯特丹自由大学计算机科学系

摘要

基于LSTM的语言模型已经在Word Sense Disambiguation(WSD)中显示出有效性。 尤其是Yuan等人提出的技术(2016)在几个基准测试中返回了最先进的性能,但是没有发布训练数据和源代码。本文介绍了仅使用公开可用的数据集进行复制研究和分析该技术的结果(Giga Word,Sem Cor,OMSTI)和软件(Tensor Flow)。 我们的研究表明,与Yuan等人(2016年)所暗示的方法相比,可以用更少的数据获得类似的结果。 详细的分析揭示了这种方法的优点和缺点。 首先,添加更多未注释的训练数据很有用,但收益递减。 其次,该模型可以正确识别流行和不受欢迎的含义。 最后,注释数据集中的有限感覆盖是一个主要限制。 所有代码和训练有素的模型都是免费提供的。

1介绍

Word Sense Disambiguation(WSD)是NLP社区中一项历史悠久的任务(参见Navigli(2009)的一项调查),其目标是在Word Net等词汇数据库中以最恰当的含义注释文本中的词条(Fellbaum,1998))。 已经提出了许多方法 - 更受欢迎的方法包括使用支持向量机(SVM)(Zhong和Ng,2010),SVM结合无监督训练嵌入(Iacobacci等,2016; Rothe和Sch¨utze,2017) 和基于图的方法(Agirre等,2014; Weissenborn等,2015)。

近年来,人们对使用长期短期记忆(LSTM)(Hochreiter和Schmidhuber,1997)进行WSD的兴趣激增(Raganato等,2017b; Melamud等,2016)。 这些方法的特点是高性能,简单性以及从原始文本中提取大量信息的能力。 其中表现最好的是Yuan等人的方法(2016),其中在具有1000亿个标记的语料库上训练的LSTM语言模型与小的有义注释的数据集相结合,以实现所有单词WSD中的最新性能。

尽管Yuan等人(2016年)获得的结果优于先前的最新技术,但所使用的数据集和构建的模型都不可用于社区。 这是不幸的,因为这使得该技术的重新应用成为一个非平凡的过程,并且阻碍了进一步研究以了解哪些限制可以防止更高的精度。 例如,这些可能是算法性质或与输入(尺寸或质量)有关,而更深入的理解对于实现进一步改进至关重要。 此外,未报告某些详细信息,这可能会阻止其他尝试复制结果。

为了解决这些问题,我们重新实现了Yuan等人(2016)的方法,目标是:1)复制和提供代码,训练的模型和结果; 2)了解哪些是构成该方法的优点和缺点的主要因素。 虽然由于原始数据不可用而无法完全复制,但我们仍设法用其他公共文本语料库重现他们的方法,这使我们能够对该技术的性能进行更深入的调查。 这项调查旨在了解WSD方法的灵敏度。 用于训练的未注释数据(即原始文本)的数量,模型复杂性,方法对于最常见语义(MFS)的选择偏好,以及识别使用较大的未注释数据集无法克服的限制。

因此,本文的贡献有两方面:一方面,我们提出了一项复制研究,其结果是公开的,因此可以由社区自由使用。 请注意,在最近的一项工作中,明确提到缺乏可用的模型是该技术与其他竞争对手缺失比较的原因(Raganato等,2017b,脚注10)。 另一方面,我们提出其他实验,以更多地阐明这种和类似方法的价值。

我们期待得出一些结论。首先,一个积极的结果是我们能够重现袁等人的方法。 (2016)并获得与最初发布的结果类似的结果。然而,令我们惊讶的是,这些结果是使用18亿标记(Gigaword)的小得多的语料库获得的,这小于原始研究中使用的数据的2%。此外,我们观察到未注释数据的数量很重要,但其大小与改进之间的关系不是线性的,这意味着需要指数级更多未注释的数据才能提高性能。此外,我们表明,正确语义分配的百分比更平衡,因为感知流行度,意味着系统对最常见意义(MFS)的偏见较弱,并且更好地识别流行和不受欢迎的含义。最后,我们表明注释数据集中的有限的语义范围是一个主要限制,正如所得到的模型没有超过30%的意义所表示的事实所示,这些意义应该被考虑用于消除测试集的歧义。

2背景

当前的WSD系统可以根据两个维度进行分类:它们是否使用原始文本而没有任何预先指定的含义(此后未注释的数据),以及它们是否利用Word Net中的同义词集之间的关系(以后的同义词关系)。 (IMS)(Zhong和Ng,2010; Taghipour和Ng,2015)是一个著名的最先进的系统,它不依赖于未注释的数据,也不利用同义词关系。 该系统使用SVM仅使用带注释的数据作为训练证据来训练每个引理的分类器。

相比之下,基于图形的WSD系统不使用(未)注释数据,而是依赖于synset关系。系统UKB(Agirre等,2014)将Word Net表示为一个图,其中synset是节点,关系是边。 使用个性化PageRank算法初始化节点权重后,将根据上下文信息更新它们。 然后,选择具有最高权重的synset。 Babelfy(Moro等人,2014)和Weissenborn等人的系统(2015)都将整个输入文档表示为具有同义词关系作为边缘并共同消除名词和动词消歧的图形。 在Babelfy的情况下,使用最密集的子图启发式来计算文本的高度一致性语义解释。 相反,Weissenborn等人(2015)将一组互补目标(包括感知概率和类型分类)组合在一起以执行WSD。

许多系统都使用未注释的数据和同义词关系。 Tripodi和Pelillo(2017)以及Camacho-Collados等人(2016)利用来自未注释数据的统计信息来权衡图中节点的相关性,然后将其用于执行WSD。 Rothe和Sch¨utze(2017)使用单词嵌入作为起点,然后依靠词汇资源中的形式约束来创建synset嵌入。

最近,使用未注释数据但不考虑同义关系的WSD方法出现了激增。 Iacobacci等人(2016)提供了一个例子,他研究了字嵌入作为WSD系统特征的作用。使用四种方法(级联,平均,分数衰减和指数衰减)使用单词嵌入从句子上下文中提取特征。然后将这些功能添加到IMS的默认特征集中(Zhong和Ng,2010)。此外,Raganato等人(2017b)提出了许多端到端神经WSD架构。性能最佳的是基于具有注意力机制和两个辅助损失函数(词性和Word Net粗粒度语义标签)的双向长短期记忆(BLSTM)。 Melamud等(2016)也利用未注释的数据来训练BLSTM。我们在本文中考虑的Yuan等人(2016)的工作属于最后一类。与Melamud等人(2016)不同,它使用了更多未注释的数据,模型包含更多隐藏单元(2048对600),并且语义分配更加精细。我们将在下一节中更详细地描述这种方法。

3语言模型用于消岐

Yuan等人(2016)提出的方法通过使用与其含义相关联的一个Word Net同义词来注释文本中的每个引理来执行WSD。 从广义上讲,消歧是通过以下方式完成的:1)从大型未注释数据集构建语言模型; 2)使用更小的注释数据集从该模型中提取语义嵌入; 3)依靠语义嵌入来对未知的句子中的引理进行预测。 每个操作如下所述。

构建语言模型。长期短期记忆(LSTM)(Hochreiter和Schmidhuber,1997)是一种著名的递归神经网络结构,已被证明在许多自然语言处理任务中都有效(Sutskever等,2014; Dyer等,2015; He) 与以前的架构不同,LSTM配备了可控制信息流的可训练门,允许神经网络学习短程和长程依赖。

在Yuan等人(2016)的方法中,第一个操作包括构建LSTM语言模型以捕获上下文中单词的含义。 他们使用具有h结点的单个隐藏层的LSTM网络。 给定句子s =(w1,w2,...,wn),它们用特殊标记$替换单词wk(1≤k≤n)。该模型将该新句子作为输入,并产生维数p的上下文向量c (参见图1)。

图1:LSTM模型用于执行语言建模和计算上下文嵌入。 在训练时,添加softmax层,允许它预测省略的单词; 在测试时,上下文嵌入用于最近邻居或标签传播过程中的WSD。

词汇表V中的每个单词w与相同维度的嵌入φo(w)相关联。训练该模型以实现预测被省略的单词,从而减小在句子的大集合D上的softmax损失。

在训练模型之后,我们可以使用它来提取上下文嵌入,即围绕给定单词的句子的潜在数字表示。

计算词义嵌入。LSTM网络生成的模型旨在捕获所提及的上下文中词语的“含义”。 为了执行歧义消除,我们需要从中提取出适合于词义的表达。 为了这个目的,该方法依赖于另一个语料库,语料库中每个单词用相应的语义注释。

主要的直觉是,在相同词义上使用的词语也在彼此非常相似的上下文中被提及。 这表明了一种计算语义嵌入的简单方法。 首先,调用LSTM模型来计算注释数据集中一个语义每次出现的上下文向量。 一旦计算了所有上下文向量,则将有义嵌入定义为所有向量的平均值。 例如,让我们假设感觉马2n(即马的第二个含义作为名词)出现在两个句子中:

(1)马的移动到角落迫使了将军。

(2)Karjakin后来为一些失去的主教弥补了一些行动,交易车并赢得了黑马。

在这种情况下,该方法将用句子中的$替换该意义并将它们馈送到训练的LSTM模型以计算两个上下文向量c1和c2。 然后将含义嵌入s horse2n计算为:

针对注释语料库中出现的每个词义计算此过程。

平均技术来预测词义。 在计算所有意义嵌入之后,该方法准备消除目标词的歧义。 该程序如下:

1.给定输入句子和目标词,它用$替换目标词的出现,并使用LSTM模型来预测上下文向量ct。

2.目标词的引理用于从Word Net中检索候选同义词s1,…,sn其中n是同义词的数量。 然后,该过程查找在上一步中计算出来的相应的词义嵌入s1,…,sn。

3.该过程调用子例程来选择上下文向量ct中的n个词义中的一个。 它使用余弦作为相似度函数选择其向量最接近ct的词义。

标签传播。袁等人(2016)认为平均程序不是最理想的,原因有两个。首先,语义发生的分布规律是未知的,而平均仅适用于球形聚类。其次,平均将每个语义的出现的表示减少到单个向量,因此忽略了感知先验。出于这个原因,他们建议使用标签传播作为推理的替代方法。标签传播(Zhu和Ghahramani,2002)是一种经典的半监督算法,已应用于WSD(Niu等,2005)和其他NLP任务(Chen等,2006; Zhou,2011)。该过程涉及不仅预测目标案例的语义,还预测从语料库查询的未注释单词的词义。它将目标案例和未注释的单词表示为向量空间中的点,并迭代地将分类标签从目标类传播到单词。通过这种方式,它可以用于构建非球形聚类并对频繁的感官产生更大的影响。

整体算法。我们实施的整体消除歧义程序如下:

1. Monosemous单词义:首先,WSD算法检查目标词是否是单一的(即,只有一个synset)。 在这种情况下,消歧是微不足道的。

2.标签传播:如果启用了标签传播,则它会检查目标词在注释数据集中是否至少出现一次,在辅助未注释数据集中至少出现一次。 在这种情况下,该过程应用标签传播技术来选择候选synset。

3.平均:如果先前的策略不适用并且在带注释的数据集中至少出现一个目标引理,则我们应用平均技术来选择候选同义词集。

4. MFS回退:如果目标引理未出现在带注释的数据集中,则系统会选择最常见的同义词集。

4复现研究:方法论

在我们报告实验结果之前,我们会描述所使用的数据集,并提供有关我们实施的一些细节。

训练数据。原始出版物中使用的1000亿令牌语料库不公开。因此,对于LSTM模型的培训,我们使用英语Gigaword第五版(语言数据联盟(LDC)目录号LDC2011T07)。 该语料库包括来自四大新闻机构的410万份文件中的18亿份代币。 我们将研究更大的语料库留待将来工作。

对于词义嵌入的训练,我们使用了Yuan等人使用的相同的两个语料库。(2016):

1. SemCor(Miller等,1993)是一个包含大约240,000个有义注释词的语料库。标记文件来自布朗语料库(Francis and Kucera,1979),涵盖各种类型。

2. OMSTI(Taghipour和Ng,2015)包含一百万个语义标注,通过利用并行多联合语料库的英汉部分自动标记(Eisele和Chen,2010)。 为每个WordNet意义手动创建了英语翻译列表。 如果英语单词的中文翻译与Word Net意义的手动策划翻译之一匹配,则选择该意义。

实现。我们使用Beautiful Soup HTML解析器从Gigaword语料库中提取纯文本。 然后,我们使用Spacy 1.8.2的英文模型进行句子边界检测和标记化。 LSTM模型使用Tensor Flow 1.2.1(Abadi等,2015)实施。 我们选择Tensor Flow是因为它具有工业级质量,因为它可以培养大型模型。

整个过程的主要计算瓶颈是LSTM模型的训练。 虽然我们不使用1000亿标记语料库,但如果没有正确优化,在Gigaword上训练模型可能需要数年时间。 为了减少训练时间,我们假设批次中的所有(填充)句子具有相同的长度。 在较小的模型(h = 100,p = 10)上测量,这种优化将速度提高了17%。 其次,在Yuan等人的研究中,我们使用了采样的softmax损失函数(Jean et al。,2015)。 第三,我们将相似长度的句子组合在一起,同时改变批次中的句子数量以充分利用GPU RAM。 这些启发式技术共同将训练速度提高了42倍。

虽然袁等人建议使用标签传播的分布式实现(Ravi和Diao,2015),我们发现scikit-learn(Pedregosa等,2011)对于我们的实验来说足够快。对于超参数调整,我们使用OMSTI中的注释(其中在测试时不使用)。 在测量标签传播的一些变化的性能(scikit-learn实现:标签传播或标签传播;相似性度量:内部产品或径向基函数与不同的γ值)后,我们发现标签传播与内积相似性的组合导致最佳结果,也比开发集上的平均值更好。

评估框架。为了评估WSD预测,我们选择了两个测试集:一个来自Senseval2(Palmer等,2001)竞赛,它测试名词,动词,形容词和副词的歧义,以及一个来自2013版(Navigli等,2013),仅关注名词。

Senseval-2的测试集是英语全词任务; senseval2从此以后。 该数据集包含来自华尔街日报的三篇文章中的2,282个注释。 大多数注释都是名义上的,但竞争中还包含动词,形容词和副词的注释。 在该测试集中,66.8%的所有目标词都用词目的最常见词义(MFS)注释。 这意味着总是选择MFS的简单策略将在该数据集上获得66.8%的F1。

SemEval-2013的测试集是从任务12:多语言词义消歧; semeval2013。 此任务包括两个消除歧义的任务:英语,德语,法语,意大利语和西班牙语的实体链接和词义消歧。 该测试集包含以前版本的统计机器翻译研讨会中的13篇文章。这些文章共包含1,644个测试实例,这些都是名词。 MFS基线在该数据集上的应用产生了63.0%的F1分数。

表1:与已公布的结果相比,我们的实施绩效。 我们报告用于执行WSD的模型/方法,使用的带注释的数据集和记分器,以及每个测试集的F1。 在我们的模型命名中,LSTM表示平均技术用于词义分配,而LSTMLP表示使用标签传播获得的结果(参见第3节)。 T:之后的数据集表示用于表示语义的注释语料库,而U:OMSTI表示在使用标签传播的情况下使用OMSTI作为未标记的句子。 P:Sem Cor表示Sem Cor的感知分布用于系统架构。 使用了三个得分:“framework”是指Raganato等人的WSD评估框架。(2017A); “mapping to WN3.0”是指Yuan等人使用的评估,而“competition”是指比赛本身提供的得分(例如,semeval2013)。

5结果

在本节中,我们报告了我们对Yuan等人的结果的再现,并且附加了其他实验,以深入了解该方法的优点和缺点。这些实验侧重于最常见和较不常见的语义表现,注释数据集的覆盖范围以及随之而来的对消岐准确性的影响,包括对整体预测的影响,对语义表示的粒度的影响以及对未注释数据和模型复杂性的影响。

复制结果。 我们使用Yuan等人的最佳报告设置训练了LSTM模型。 (2016)(隐藏层大小h = 2048,嵌入维度p = 512)使用配备Intel Xeon E5-2650,256GB RAM,8TB磁盘空间和两个NVIDIA Ge Force GTX 1080 Ti GPU的机器。 我们的训练,充分利用一个GPU在TensorFlow一次epoch花了大约一天完成。整个训练过程用了四个月。 我们在训练期间三次测试了下游WSD任务的性能,并观察到在第65个时期获得了最佳性能,尽管后来的模型产生了较低的负对数似然。 因此,我们在下面的实验中使用了第65个时期产生的模型。

表1分别使用测试集senseval2和semeval2013表示结果。 表格的上半部分显示了我们的复制结果,中间部分报告了Yuan等人的结果,而底部报告了其他最先进方法的代表性样本。

应该注意的是,使用semeval2013的测试集,所有得分者都使用Word Net 3.0,因此可以直接比较各种方法的性能。 然而,并非senseval2中的所有答案都可以映射到WN3.0,我们不知道Yuan等人是怎么处理了这些案件。 在我们选择进行评估的WSD评估框架(Moro et al,2014)中,这些案例要么重新注释要么被删除。 因此,我们在senseval2上的F1无法直接与原始论文中的F1进行比较。

从表1的第一眼看,我们观察到如果我们使用SemCor来训练synset嵌入,那么我们的结果接近于senseval2上的最新技术(0.720对0.733)。 在semeval2013上,我们获得了与其他嵌入式方法相当的结果(Raganato等,2017b; Iacobacci等,2016; Melamud等,2016)。 然而,与Weissenborn等人的基于图的方法的差距仍然很明显。 当我们使用SemCor和OMSTI作为注释数据时,我们的结果对于senseval2下降0.02点,而对于semeval2013,它们增加了近0.01。 与袁等人不同,我们没有观察到使用标签传播的改进(比较T:SemCor,U:OMSTI对T:SemCor没有传播)。 但是,标签传播策略的性能在两个测试集上仍然具有竞争力。

大多数与不太频繁的语义实例。 原始论文仅分析了整个测试集的性能。 我们通过查看用于消除最常见语义(MFS)和低频语义(LFS)实例消除歧义的性能来扩展此分析。 第一类实例是正确链接最常见的语义实例,而第二类包含其余实例。 这种分析很重要,因为在WSD中,总是选择MFS的策略是WSD的有效基线,因此WSD系统对于最常见语义容易过拟合。

表2显示了Yuan等人的方法,由于对LFS实例的召回仍然相当高(0.41)(LFS实例的召回率低于MFS实例,因为它们的训练数据减少,因此预计对MFS的覆盖率与其他监督系统相同)。

在semeval13上,仅使用SemCor(0.33)对LFS的召回已经相对较高,当使用SemCor和OMSTI时,LFS的召回率已达到0.38。 为了进行比较,在SemCor上训练的默认系统IMS(Zhong和Ng,2010)仅在semeval13上获得0.15的R lfs(Postma等,2016),并且仅在具有大量注释数据的情况下达到0.33。

最后,我们对标签传播的实现似乎对MFS略微过高。 当我们比较使用SemCor和OMSTI的平均技术与使用标签传播时的结果时,我们注意到MFS召回的增加(从0.85到0.91),而LFS召回从0.40下降到0.32。

注释数据集中的含义覆盖。 WSD程序依赖于带注释的语料库来构成其语义表示,使得缺失注释成为不可逾越的障碍。 实际上,带注释的数据集仅包含WordNet中列出的可能候选同义词集的正确子集的注释。 我们使用四个统计数据分析这种现象

1.候选覆盖:对于每个测试集,我们在WordNet中执行查找以确定所有目标词目的唯一候选同义词。 然后,我们确定在注释数据集中具有至少一个注释的这些候选同义词的百分比。

2.引理覆盖:给定测试集中的目标词,我们在Word Net中执行查找以确定唯一的候选同义词。 如果该目标引理的所有候选同义词在注释数据集中至少有一个注释,我们声称该目标词被覆盖。 然后,目标覆盖率是所有覆盖的目标词的百分比。 高目标词覆盖率表明带注释的数据集涵盖了测试集中的大部分含义。

3.金牌覆盖:我们计算测试集中正确答案的百分比,该答案在带注释的数据集中至少有一个注释。

表3的“候选覆盖率”列显示SemCor仅包含semeval2和semeval2013的所有候选同义词中不到70%的部分,这意味着模型将永远不会具有超过30%的候选同义词集的表示。 即使添加了OMSTI,覆盖率也不会超过70%,这意味着我们缺乏大量潜在注释的证据。 此外,“目标词覆盖率”一栏表明,我们在两个WSD竞赛中只有30%的词有所有潜在解决方案的证据,这意味着在绝大多数情况下,从未见过某些解决方案。 “黄金覆盖率”列衡量是否至少在带注释的数据集中看到了正确的答案。数字表明测试集中20%的解决方案没有任何注释。使用我们的方法,这些答案只有在词是单词义的情况下才能返回,否则只能通过随机猜测返回。

为了进一步研究这些问题,表4报告了各种消除歧义策略的召回率,这些策略可以根据词的覆盖范围进行调用(这些可以是:单一,平均,标签传播,MFS - 参见第3节中报告的整体程序)。

我们观察到MFS回退在获得总体高精度方面起着重要作用,因为它被多次调用,特别是对于OMSTI,由于数据集的覆盖率低(在这种情况下,它在775个案例中被调用,而在1072个场景中被调用) 。例如,如果我们没有使用SemCor作为带注释的语料库对senseval2应用MFS回退策略,那么我们的性能将从0.72降至0.66,低于此任务的MFS基线0.67。标签传播确实适用于一半案件,但导致较低的结果。从这些结果中,我们了解到这种方法的有效性很大程度上取决于带注释数据集的覆盖范围:如果它不像OMSTI那样高,那么这种方法的性能会降低到选择MFS的方式

词义表征的粒度。 Rothe和Sch¨utze(2017)提供了证据,证明词义表征的粒度对WSD表现有影响。 更特别的是,他们的WSD系统在使用sensekeys(在他们的论文中称为lexemes)训练时比在synsets上训练得更好。 虽然基于sensekey的消歧导致每个目标词的注释数据较少,但是sensekey表示比在synset级别更精确(因为它是与特定含义相关联的词)。

本文讨论的重新实现使我们能够回答这个问题:如果我们将消歧水平从synset降低到sensekeyLSTM模型将如何工作?表5显示了该实验的结果。 从表中可以看出,我们的方法在两个测试集上也返回了更好的性能。 这种行为很有趣,一种可能的解释是sensekeys比synsets更具辨别力,这有利于消歧。

注释5:senseval2包含2,282个实例,如果不使用MFS回退策略,系统将错误地回答135个实例,因此性能下降0.06。

表5:使用synset或sensekey级别表示含义的我们实现的F1分数的比较。

(a)性能与未注释的语料库大小

(b)性能与参数数量

图2:(a)未注释语料库大小和(b)WSD性能参数数量的影响。 参数数量包括隐藏层的权重,投影层的权重以及输入和输出嵌入。注意横轴是对数刻度。

未注释数据和模型大小的影响。 由于未注释的数据非常丰富,因此人们很有可能使用越来越多的数据来训练语言模型,希望更好的词向量能够转化为改进的WSD性能。 事实上袁等人使用了一个1000亿标记语料库只是强化了这种直觉。 我们通过改变用于训练LSTM模型的语料库的大小并测量相应的WSD性能来凭经验评估未标记数据的有效性。 更具体地说,训练数据的大小设置为千兆字库的1%,10%,25%和100%(包含1.8×107,1.8×108,4.5×108和1.8×109字, 分别)。

图2a显示了未注释数据量对WSD性能的影响。 1000亿(1011)标记的数据点对应于Yuan等人的报告结果。 正如可以预料的那样,更大的语料库会导致更有意义的上下文向量,从而导致更高的WSD性能。但是,F1中1%的改进所需的数据量呈指数级增长(注意横轴是对数刻度)。 从该图中推断,为了通过添加更多未注释的数据获得0.8 F1的性能,需要 个标记的语料库。 这种观察结果也适用于词义分配的平衡。 仅使用25%的未注释数据已经使得低频词义的召回率降低了35%。

此外,人们可能期望通过增加LSTM模型的容量来进一步提高性能。为了评估这种可能性,我们进行了一项实验,其中我们改变了在100%GigaWord语料库上训练的LSTM模型的大小,并分别针对senseval2和semeval2013进行了评估。图2b表明它是可能的,但需要一个指数级更大的模型。

最后,Reimers和Gurevych(2017)已经表明,报告测试分数的分布而不是仅仅一个分数是至关重要的,因为这种做法可能导致错误的结论。正如第5节开头所指出的那样,我们最大的模型需要几个月才能进行训练,因此训练它们的多个版本是不切实际的。然而,我们训练了我们最小的模型(h = 100,p = 10)十次,我们的第二个最小模型(h = 256,p = 64)五次,并观察到随着参数数量的增加,F1的标准差从0.008减小到0.003。因此,我们认为随机波动不会影响结果的解释。

6 结论

本文报道了Yuan等人提出的模型的复制研究结果和另外的分析,以深入了解各种因素对其表现的影响。

从我们的结果中可以得出一些有趣的结论。 首先,我们观察到我们不需要一个非常大的未注释数据集来实现最先进的全字WSD性能,因为我们使用的是Gigaword语料库,它比Yuan等人的专有语料库小两个数量级,在senseval2和semeval2013上获得了类似的性能。 更详细的分析暗示,添加更多未注释的数据和增加模型容量会受到收益递减的影响。此外,我们观察到这种方法比其他技术具有更平衡的词义分配,如在频率较低的情况下相对较好的性能所示实例。 此外,我们发现注释数据集中的有限意义覆盖范围为整体性能设置了潜在的上限。具有详细复制指令的代码可在以下位置获得:https://github.com/cltl/wsd-dynamic-sense-vector,训练的模型在: https://figshare.com/articles/A_Deep_Dive_into_Word_Sense_Disambiguation_with_LSTM/6352964.

04-14 16:59