我有一个带有列名称的数据框,我想找到一个包含特定字符串但与之不完全匹配的数据框。我在像'spike'
,'spike-2'
,'hey spike'
这样的列名中搜索'spiked-in'
('spike'
部分始终是连续的)。
我希望列名以字符串或变量的形式返回,因此我以后可以正常使用df['name']
或df[name]
来访问列。我试图找到方法,但没有成功。有小费吗?
最佳答案
只需遍历DataFrame.columns
,现在这是一个示例,在此示例中,您将获得匹配的列名称列表:
import pandas as pd
data = {'spike-2': [1,2,3], 'hey spke': [4,5,6], 'spiked-in': [7,8,9], 'no': [10,11,12]}
df = pd.DataFrame(data)
spike_cols = [col for col in df.columns if 'spike' in col]
print(list(df.columns))
print(spike_cols)
输出:
['hey spke', 'no', 'spike-2', 'spiked-in']
['spike-2', 'spiked-in']
解释:
df.columns
返回列名称列表[col for col in df.columns if 'spike' in col]
使用变量df.columns
遍历列表col
,如果col
包含'spike'
,则将其添加到结果列表中。该语法为list comprehension。 如果只希望结果数据集的列匹配,则可以执行以下操作:
df2 = df.filter(regex='spike')
print(df2)
输出:
spike-2 spiked-in
0 1 7
1 2 8
2 3 9