文本分类(例如衣服,玩具,食物等类别)中经常使用单词嵌入+特征提取+分类器的管道,但这假设数据中的许多内容结构良好。
关于将文本数据充满印刷错误(例如“橡皮鸭鸭”),缺少空格(例如“ PINKPOLYESTERDRESSES”),一堆插入的随机词(例如“ INTEL CHIP 220mg 1104 OLD TOWN ST。”)进行分类的技术怎么样? 。?

我知道在这里可以使用n-gram方法+分类器


使用n-gram可能在计算上很昂贵(想象一下,
包含1亿个产品条目的数据集
不可能使用n-gram中的嵌入(使用
三连词)


您认为哪些方法适用于此?

最佳答案

基于n-gram的方法要求输入文本的结构更好。通常,您将输入表示为一包n-gram,因此请依赖于训练数据和测试数据中出现的完全相同的n-gram。另一方面,当使用预训练的嵌入时,相似的词用相似的方式表示,因此您无需在训练和测试数据中看到完全相同的词。

还有一些学习n-gram嵌入的方法(例如https://github.com/artetxem/phrase2vec),但是只有在您拥有非常大的数据(例如数百万个句子)时,它们才会奏效。

我想说,在这种情况下,您应该专注于清理数据。 (删除停用词,OOV和一些规范化应该会有所帮助。)

关于machine-learning - 产品描述的困惑文本数据分类的最佳方法,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59873663/

10-12 16:42
查看更多