我们知道bert的 token 最大长度限制为512,因此,如果一个Acticle的长度远大于512,例如文本中的10000个 token
如何使用bert?

最佳答案

您基本上有三个选择:

  • 您剪掉了较长的文本,仅使用了前512个 token 。原始的BERT实现(可能还有其他实现)会自动截断更长的序列。对于大多数情况,此选项就足够了。
  • 您可以将文本拆分为多个子文本,对每个子文本进行分类,然后将结果组合在一起(例如,选择大多数子文本中已预测的类)。此选项显然更昂贵。
  • 您甚至可以按照this discussion中的描述,将每个子文本的输出 token (如选项2中所示)馈送到另一个网络(但您将无法进行微调)。

  • 我建议尝试选项1,并且仅当这还不足以考虑其他选项时。

    关于nlp - 如何使用Bert进行长文本分类?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/58636587/

    10-11 22:49
    查看更多