我正在从安德鲁教授的讲座中学习机器学习(线性回归)。他在聆听何时使用法线方程vs梯度下降时说,当我们的特征数很高时(例如10E6),然后使用梯度下降。一切对我来说都是清楚的,但我想知道有人能给我真实的例子来说明我们使用如此大量的功能吗?

最佳答案

例如,在文本分类(例如,电子邮件垃圾邮件过滤)中,我们可以使用unigram(单词袋),bigrams,trigram作为特征。根据数据集的大小,要素的数量可能非常大。

08-28 08:03