我对使用DeepPavlov chatbot框架进行文本分类感兴趣。
问题是我没有足够的训练数据。理想情况下,我希望每个班级只用几个样本进行文本分类。
最佳答案
您应该签出DeepPavlov's autoFAQ models。这些模型是专门为在训练数据有限时有效而开发的。
可供您使用的型号很少
基于tf-idf的模型
fastText模型
并混合两者
在配置文件中更改数据集源并通过运行来训练模型
python -m deeppavlov train tfidf_logreg_en_faq
您可以通过命令行与训练后的模型进行交互
python -m deeppavlov interact tfidf_logreg_en_faq -d
或通过Python代码
from deeppavlov.core.commands.infer import build_model
faq = build_model("tfidf_logreg_en_faq", load_trained = True, download = True)
a = faq(["I need help"])
a
您可以在colab notebook中找到所有必需的代码段。