我有一个庞大的数据集(2653,17)。我注意到两列有些相关,但并不完全相同,正如我从value_counts方法推断出的那样。我的意思是I的大多数对应条目是M,或C的对应条目是NaN。有什么方法可以确认这一点或以这种方式计算多少个相关的条目?
我曾尝试将它们转换为数值并使用相关技术,但我认为这并不可行。

python - 用python比较数据集的列-LMLPHP

最佳答案

交叉表应该是查看两个类别变量之间关系的初始方法:

df = pd.DataFrame(data = {'customer_type': ['I','I','I','C','C','C','I'],
            'sex': ['M','M','M','','','','M']})
print(df)
print(pd.crosstab(df.customer_type, df.sex))


输出:

sex               M
customer_type
C              3  0
I              0  4


可视化它也可能非常有帮助:https://stats.stackexchange.com/questions/147721/which-is-the-best-visualization-for-contingency-tables

关于python - 用python比较数据集的列,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/48035987/

10-12 22:06
查看更多