使用Pandas数年之久了,从最早的0.17版本开始接触Pandas,到现在0.25版本,踩过不少坑,面对各种稀奇古怪的bug抓耳挠腮。每每想要解决bug,或者想要实现一个特定的数据操作需求,首先想到的都是查查stackoverflow上的问答帖,查不到了再去看看官方的API文档。如此,虽积数年之功,但脑袋里仍然只有一些只言片语,杂乱无章,不成体系。甚至今天才忽然意识到,官方文档都没有怎么仔细读过,一直是用到哪查到哪。不能说这种做法错了,但是永远只能停留在Pandas大门口,能勉强做点数据处理吧,成功与否有点全靠运气+试错的意思。
这样肯定是很糟糕的,到最后只能落得一知半解。于是赶紧开个系列,逼迫自己去研究Pandas,梳理清楚平常用的那些方法到底好在哪里,坏在哪里,效率如何,常见的那些Bug又当如何妥善处置。
总之,希望这个系列能写得完,能写得好,能写得言之有物。如果你也在用Pandas,欢迎关注这个系列。
这个系列的文章对读者的预备知识作如下假设:
- 有Python编程基础,熟悉Python中常见的数据类型(int,float,str)和常用的数据结构(list,dict,tuple,set)
- 有一定的pandas基础,使用过pandas处理数据
- 熟悉SQL语法,因为Pandas中有很多操作其实是借鉴了SQL的思想
如果以上都没有,可以适当先学一点再看这里的文章,能相对减轻理解上的压力。