我正在为股票相关新闻文章创建文本分类器。我将本文中的全文用于培训和测试。

我看到了一种方法,即人们对文本进行预处理,即使用正则表达式仅考虑a-zA-Z0-9并将其余字符替换为空格“”。

哪种方法正确?这种Extrac预处理是否有意义?

最佳答案

这取决于。在大多数示例中,它们会删除许多字符,并且在某些情况下(取决于您的数据),它可以减小尺寸(例如,使用TF-IDF的Bag Of Words模型),从而为您提供更好的结果。但是在其他地方,您必须考虑其他一些字符,例如标点符号。

例如,您要检查一个句子是否是一个疑问句(带有分类),那么考虑像“?”这样的标点符号几乎是必不可少的。

最后,考虑一下您的数据,然后尝试使用不同的预设模型,并将最终结果(例如,用于分类的交叉验证)彼此进行比较,然后选择最佳模型。

关于machine-learning - 仅考虑a-zA-Z和数字进行培训和测试是否有意义?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/38739236/

10-11 07:23