我正在研究一个对短文本进行分类的项目。
我的一个要求是对短文本进行矢量化处理,我想为每个输入添加其他功能,例如文本长度,URL数量等。
scikit-learn支持吗?
链接到任何示例笔记本或视频都非常有帮助。
谢谢,
罗米特
最佳答案
您可以使用FeatureUnion类将由不同的变形器提取的特征(例如,提取词袋(BoW)特征的特征与提取其他统计信息的特征)组合在一起。
这些特征的规范化以及相对于不同的BoW特征的数量而言可能存在问题。这是否是问题取决于下游训练的模型所做的假设以及特定的数据和目标任务。