我试图合并具有两个键列的两个数据集,并重复出现键,但是,我无法获得所需的结果。为了简化,我在这里有一个例子:

数据框A

   a  b    x
0  0  0  100
1  0  1  101
2  0  2  102
3  1  1  103


数据框B

   a  b  y
0  0  0  C
1  0  1  A
2  0  1  B
3  1  1  C
4  1  1  D


我正在尝试对列“ a”和“ b”进行左联接合并操作:

C=A.merge(B,how='left',on=['a','b'])


输出是

数据框C

   a  b    x    y
0  0  0  100  NaN
1  0  1  101  NaN
2  0  2  102  NaN
3  1  1  103  NaN


我真正想要的是:

数据框C

   a  b    x    y
0  0  0  100  C
1  0  1  101  A
2  0  1  101  B
3  0  2  102  NaN
4  1  1  103  C
5  1  1  103  D


我尝试了“ how =“参数的4个不同选项,但没有结果。

请注意,在Dataiku上,仅使用左连接可以获得此结果。
我没有找到成功的解决方案。希望您能帮助我找到它。提前致谢。



Edit1:“外部”选项:

C=pd.merge(A,B,how='outer',on=['a','b'])

C
Out[241]:
     a    b      x    y
0  0.0  0.0  100.0  NaN
1  0.0  1.0  101.0  NaN
2  0.0  2.0  102.0  NaN
3  1.0  1.0  103.0  NaN
4  0.0  0.0    NaN    C
5  0.0  1.0    NaN    A
6  0.0  1.0    NaN    B
7  1.0  1.0    NaN    C
8  1.0  1.0    NaN    D


Edit2:添加有关数据框的详细信息

A.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
a    4 non-null int32
b    4 non-null int32
x    4 non-null int32
dtypes: int32(3)
memory usage: 128.0 bytes

B.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
a    5 non-null object
b    5 non-null object
y    5 non-null object
dtypes: object(3)
memory usage: 200.0+ bytes

最佳答案

您的.info()输出揭示了问题:您的a和b列的类型不同。在A中,它们是int32,但在B中,它们是对象(几乎可以肯定是字符串)。例如,如果它们都是整数:

In [32]: A.merge(B, how='left')
Out[32]:
   a  b    x    y
0  0  0  100    C
1  0  1  101    A
2  0  1  101    B
3  0  2  102  NaN
4  1  1  103    C
5  1  1  103    D

In [33]: A.merge(B, how='outer')
Out[33]:
   a  b    x    y
0  0  0  100    C
1  0  1  101    A
2  0  1  101    B
3  0  2  102  NaN
4  1  1  103    C
5  1  1  103    D


但是如果B包含字符串,我们会重现您的问题:

In [35]: A.merge(B.astype(str), how='left')
Out[35]:
   a  b    x    y
0  0  0  100  NaN
1  0  1  101  NaN
2  0  2  102  NaN
3  1  1  103  NaN

In [36]: A.merge(B.astype(str), how='outer')
Out[36]:
     a    b      x    y
0  0.0  0.0  100.0  NaN
1  0.0  1.0  101.0  NaN
2  0.0  2.0  102.0  NaN
3  1.0  1.0  103.0  NaN
4  0.0  0.0    NaN    C
5  0.0  1.0    NaN    A
6  0.0  1.0    NaN    B
7  1.0  1.0    NaN    C
8  1.0  1.0    NaN    D


弄清楚为什么您的B包含字符串,以防上游出现问题,然后在那里修复它或稍后再强制返回整数。

09-25 16:20
查看更多