我有一个音乐收听历史记录的数据集:何时收听,在哪里收听,外面的天气如何(还有其他许多功能即将推出)和track_id作为标签。



我正在尝试预测在任何给定上下文(时间+位置+天气)下我喜欢的曲目

我想对此数据运行多类分类,但存在以下问题:


不断将我的track_ids映射到类[0..distinct_trackid_count)并返回
我有很多课(上万课)
类的数量在不断增长,所以我总是必须从头开始重新训练算法


我觉得这里不需要多类分类,并且在确定如何解决此问题方面需要帮助

最佳答案

如果您是我,我将尝试先尝试一些降维想法,然后再进行多类分类。使用简单的聚类或特征提取算法,您应该能够创建一些歌曲组(10-100组)。如果您将这些组视为课程,我认为您将能够很好地学习这些功能,从而能够在给定的环境中推荐您喜欢的歌曲。此后,更不用说问题了。

但是,如果您只追求一首“完美”的歌曲,那么与K最近的邻居可能是您最好的选择。

08-24 22:44
查看更多