我对使用DeepPavlov chatbot框架进行文本分类感兴趣。

问题是我没有足够的训练数据。理想情况下,我希望每个班级只用几个样本进行文本分类。

最佳答案

您应该签出DeepPavlov's autoFAQ models。这些模型是专门为在训练数据有限时有效而开发的。

可供您使用的型号很少


基于tf-idf的模型
fastText模型
并混合两者


在配置文件中更改数据集源并通过运行来训练模型

python -m deeppavlov train tfidf_logreg_en_faq


您可以通过命令行与训练后的模型进行交互

python -m deeppavlov interact tfidf_logreg_en_faq -d


或通过Python代码

from deeppavlov.core.commands.infer import build_model
faq = build_model("tfidf_logreg_en_faq", load_trained = True, download = True)
a = faq(["I need help"])
a


您可以在colab notebook中找到所有必需的代码段。

10-06 12:37