我的问题与此类似:
How to check whether the content of Column A is contained in Column B using Python DataFrame?

不幸的是,在我的情况下,选择的答案导致无类型错误。

我有以下格式的熊猫数据框:

id,text_1,text_2_compare
1,yyy,yy
2,yxy,xx
3,zzy,zy
4,zzy,x
5,xyx,yx


我想比较这些列以查看“ text_1”中是否包含“ text_2_compare”并创建一个新指标。

id,text_1,text_2_compare,match
1,yyy,yy,1
2,yxy,xx,0
3,zzy,zy,1
4,zzy,x,0
5,xyx,yx,1


任何提示或技巧(特别是矢量化的实现)将不胜感激!

最佳答案

以@Onyambu的答案为基础。

in可以代替re.findall()

df["match"] = df.apply(lambda v: int(v[2] in v[1]),axis=1)
print(df["match"]


输出:

0    1
1    0
2    1
3    0
4    1

关于python - 比较列行明智的部分字符串匹配,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51391250/

10-09 23:24