我有一个文本文件mart_export.txt,里面装满了两种不同类型的键,看起来像这样

Gene stable ID  RefSeq match transcript
ENSG00000243959
ENSG00000206698
ENSG00000265684
ENSG00000251990
ENSG00000241552
ENSG00000050767 NM_173465.4


如您所见,大多数右列都没有任何数据,但是我正尝试仅根据具有两列值的索引来构建新的pandas数据框。到目前为止,这是我的脚本

#Put the biomart export in a pandas dataframe
mart = pd.read_csv("mart_export.txt", delimiter="\t")

#Create new list of records with Gene Stable Id and RefSeq numbers
d = {'Gene Stable ID': [], 'RefSeq ID': []}
for i in mart:
    if mart['RefSeq match transcript'] != NaN:
        d['Gene Stable ID'].append(mart['Gene stable ID'])
        d['RefSeq ID'].append(mart['RefSeq match transcript'])


在Spyder中,第二列中空白的值标记为NaN,但是当我尝试在代码中使用此值时,我在python中收到一条错误,指出未定义NaN。如何指定python的空白外观?

最佳答案

您可以使用熊猫dropna()DataFrame方法删除行或列。

在您的情况下,它将是:

mart.dropna(axis="rows", inplace=True)


您可以删除包含NaN的列,指定how参数,依此类推,检查上面链接的文档。

10-06 11:16