在生产级别,我想使用预先保存的模型来预测我的实时数据。
但是,在分解分类数据时,我不知道如何设置实时数据与训练数据的一致性。
From this article我知道我可以将训练数据和新数据堆叠在一起并使它们保持一致。
但是,堆叠和遍历整个过程(进行整个要素工程,训练和预测)非常耗时。
整个过程:15分钟对仅限模型预测:3秒
由于生产级别系统对时间敏感,因此我可以使用任何方法分解新数据以使其与训练数据具有相同的映射吗?
或者我只能通过“手动”来做到这一点,例如
df.loc[df['col_name']=='YES', 'col_name'] = '1'
这可能导致很长的编码?
最佳答案
如果您的意思是解释传入的新颖分类值(例如,对于df.color,您获得了新的值“ blue-green”),则可以将所有意外值反弹到相同的-1存储桶中(未知,让我们例如说),然后在后期处理中或在您重新调整模型时进行处理。
本质上,您可以捕获类别异常,然后在以后处理它们。
关于python - 通过对训练数据的一致映射来分解实时数据?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51943037/