nlp - 如何使用Bert进行长文本分类？

我们知道bert的 token 最大长度限制为512，因此，如果一个Acticle的长度远大于512，例如文本中的10000个 token
如何使用bert？

最佳答案

您基本上有三个选择:

您剪掉了较长的文本，仅使用了前512个 token 。原始的BERT实现(可能还有其他实现)会自动截断更长的序列。对于大多数情况，此选项就足够了。

您可以将文本拆分为多个子文本，对每个子文本进行分类，然后将结果组合在一起(例如，选择大多数子文本中已预测的类)。此选项显然更昂贵。

您甚至可以按照this discussion中的描述，将每个子文本的输出 token (如选项2中所示)馈送到另一个网络(但您将无法进行微调)。

我建议尝试选项1，并且仅当这还不足以考虑其他选项时。

关于nlp - 如何使用Bert进行长文本分类？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/58636587/