我的问题是我有两个应该相同的值,但是它们有这个奇怪的区别,我不知道它来自哪里。

上下文是我使用pd.read_csv导入了3个文件。我使用groupby,一些日期字段将值分组,并使用nunique汇总了有问题的变量,以保持对计数的记录。

然后,实际上使用Tableau计算了不同数量的唯一记录。我发现一对熊猫说的记录是不同的,而Tableau认为是平等的。

看一看:

df
      A
0     100000306
1     100000306

x1 = df.iloc[0,0]
str(x1.values)
"['100000306']"

x2 = df.iloc[1,0]
str(x2.values)
'[100000306]'


为什么会发生这种情况,而熊猫又知道它们具有相同的价值,该怎么办?

最佳答案

您在一列中有不同的类型

df.applymap(type)
               A
0  <class 'str'>
1  <class 'int'>


请注意,当您打印df.A时,它将显示对象

df.A
0    100000306
1    100000306
Name: A, dtype: object

关于python - 文本数据存储方式不同,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/54818101/

10-09 07:53