我一直在尝试理解自我注意,但是我发现的所有内容并不能很好地解释这个概念。

假设我们在NLP任务中使用了自注意力,所以我们的输入是一个句子。

然后,可以使用自我注意来衡量句子中每个单词对每个其他单词的“重要性”。

问题是我不了解如何衡量“重要性”。重要的是什么?

自我关注算法中权重针对的目标向量到底是什么?

最佳答案

将具有潜在含义的语言连接起来称为基础。诸如“球在桌子上”之类的句子产生了可以通过多模式学习进行复制的图像。多模式是指可以使用不同种类的单词,例如事件,动作单词,主题等。自我注意机制可以将输入向量映射到输出向量,并且它们之间是一个神经网络。神经网络的输出向量参考了实际情况。

让我们举一个简短的例子。我们需要一个300x200的像素图像,我们需要一个自然语言的句子,并且需要一个解析器。解析器可以双向工作。他可以将文本转换为图像,这意味着将“球在桌子上”的句子转换为300x200图像。但是也可以解析给定的图像并提取自然句。自我注意学习是学习和使用扎根关系的一种引导技术。这意味着要验证现有的语言模型,学习新的语言模型并预测未来的系统状态。

关于machine-learning - 什么用于训练自我注意机制?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/53172502/

10-12 21:12