我一直在手动进行转换,但是有一种方法可以在sklearn的labelencoder中使用垃圾箱或范围:

le = LabelEncoder()
A = ["paris", "memphis"]
B = ["tokyo", "amsterdam"]
le.fit([A,B])
print(le.transform(["tokyo", "memphis", "paris","tokyo", "amsterdam"]))

所需的输出-> [2,1,1,2,2]
或者您可以想象使用年龄范围,距离等。有没有办法做到这一点?

最佳答案

据我所知,LabelEncoder无法做到这一点,但是制作自定义转换函数应该可以工作。

编辑:更新了代码以处理两个垃圾箱中或两个垃圾箱中都没有的项目。

from sklearn.base import TransformerMixin

class BinnedLabelEncoder(TransformerMixin):

    def transform(self, X, *_, start_index=1):
        result = []
        for item in X:
            for group_id, group in enumerate(self.group_list):
                if item in group:
                    result.append(group_id + start_index)
                    break
            else:
                result.append(None)
        return result

    def fit(self, group_list, *_):
        self.group_list = group_list
        return self

您可以将其与问题代码一起使用:
le = BinnedLabelEncoder()
A = ["paris", "memphis"]
B = ["tokyo", "amsterdam"]
le.fit([A,B])
print(le.transform(["tokyo", "memphis", "paris","tokyo", "amsterdam"]))

输出
[2, 1, 1, 2, 2]

关于带有分类箱的Python sklearn的labelencoder,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51383297/

10-12 16:58