我有一个带有重复字符串值的Pandas::Series
对象,我需要将其正规化为int
值才能输入TensorFlow。
我已经研究过根据this将其转换为Category
的方法,但是它为每个项创建了一个代码,而不是识别重复项。
例如,我希望进行以下转换
['a', 'b', 'c', 'd', 'a', 'a', 'c'] -> [1, 2, 3, 4, 1, 1, 3]
最佳答案
你需要改变一下:
print ((pd.factorize(['a', 'b', 'c', 'd', 'a', 'a', 'c'])[0] + 1).tolist())
[1, 2, 3, 4, 1, 1, 3]
关于python - Pandas String Series将Tensor的int归一化,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/48478462/