在项目中所用到的方法汇集:
1.在项目中从数据库中取出数据后通常需要先绘制图像进行数据的观察,此过程中使用到的方法:
时间数据类似于 2022-02-22 2:22:22 可以先转换为datetime类型的数据:可以使用pd.to_datetime()
方法将时间转换为datetime类型
例如:time = pd.to_datetime('2022-02-22 2:22:22')
输出结果:Timestamp('2022-02-22 02:22:22')
转换成功
2.可以设置时间序列为索引方便绘图:在DataFrame列表中使用DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)
方法设置任意列为索引
参数:
- keys -- 列标签或列标签/数组列表 需要设置为索引的列
- drop -- 默认为True 删除用作新索引的列
- append -- 是否将列附加到现有索引 默认为False
- inplace -- 布尔类型 表示当前操作是否对原数据生效 默认为False
- verify_integrity -- 检查新索引的副本 将其设置为False将提高该方法的性能 默认为false
例如:datas.set_index('svrCtime', inplace=True)
#设置了svrCtime为索引,inplace=True代表直接作用在原列表上
3.也可以使用DataFrame.reset_index(level=None, drop=False, inpalce=False, col_level=0, col_fill=' ')
方法重置索引,
例如:data = data.reset_index()
#重置了列表的索引,原索引回到了列表中
4.pandas.DataFrame.diff(periods=?)
方法适用于计算差分的:即将某行/列移动periods周期后,与原来数据进行对比,取得差值。
其中参数periods=几代表作几阶差分
例如:diff_ = data['bottomTemp'].diff(periods=2)
#对数据的'bottomTemp'列进行二阶差分
5.向DataFrame列表中指定位置添加一列值使用:DataFrame.insert(loc,column,value,allow_duplicates = False)
方法
参数:
loc: int,插入索引。必须验证0 <= loc <= len(columns)
column:str, number, or hashable object,插入列的标签
value:int, Series, or array-like
allow_duplicates:bool, 可选
前面三个是必选,后面的可选
值得注意的是,如果你不知道value的值,可以使用np.nan代替,后续再赋值
例如:data.insert(len(data.columns), 'diffs', diff_)
#向data列表中的末尾处添加名字为diffs的一列,其中值为diff_
6.pandas中.loc()与.iloc()函数的使用与区别区别:
见pandas常用操作详解——.loc与.iloc函数的使用及区别
7.设置一个空的dataFrame列表:
例如:df = pd.DataFrame(columns=['Time', 'Date', 'get_time', 'Hour', 'Minute', 'Length'])
即可
8.判断一个列表是否为空用.empty
例如:df.empty
若为空返回ture,否则为false
9.使用jupyter notebook时想要设置显示全部数据时使用:
pd.set_option('display.max_rows', None) # 设置显示最大行
10.当需要对数据进行分箱操作时可以使用pd.cut()
方法,所谓的分箱操作就是对一些数据(连续的数据)进行离散化处理,该方法可以根据我们设定的离散化情况对数据进行统计。
函数中的参数可以参照该文章:数据分箱之pd.cut()
具体操作和一些统计方法可以参照:pandas中pd.cut()的功能和作用
视频讲解:数据分箱操作
11.当需要将数据进行聚合和分组运算时使用pd.groupby()
方法
该方法具体可参考:Pandas教程 | 超好用的Groupby用法详解和
pandas中pd.groupby()的用法
视频讲解:数据的聚合与分组运算