1 修改属性

1.1 修改1列的类型属性

df['总金额'] = pd.to_numeric(df['总金额']) #转变dataframe的1列为数值型

1.2 多列设为数值型:(使用DataFrame.apply处理每一列)

df[['col2','col3']] = df[['col2','col3']].apply(pd.to_numeric)  

    多列格式指定为字符串型式

df[['首封', '终封']] = df[['首封', '终封']].astype(str)

   打开文件时,指定某列为字符型:

df = pd.DataFrame(pd.read_excel('短线宝.xls',converters={'代码':str})) 

  指定多列为字符型:

df = pd.DataFrame(pd.read_excel('短线宝.xls',converters={'代码':str,'上市天数':str})) 

将所有数据转换为字符串:

dataframe=dataframe.astype(str)

   将多列分别指定类型:

data = data.astype({'outcome':'float','age':'int'})

1.3 整个DataFrame设为数值型:

df.apply(pd.to_numeric, errors='ignore') #可以转换为数字类型的列将被转换,而不能(例如,它们包含非数字字符串或日期)的列将被单独保留。
 

2 修改某列数值

df['流通市值'] = round(df['流通市值']/100000000,2)

3 dataframe数据筛选后求和

df1 = df[(df['age']>10) & (df['age']<30)]['profit'].sum() 

4 直接指定各列名称

df.columns = ['股票简称','涨幅%','股票代码','现价'...]
df.rename(columns={'代码': '股票代码'}) #只更改一列的名称

5 改变列顺序

order = ['股票代码','股票简称',....']
df = df[order] 

6 删除指定多列

x = [4,7,10,11,12,13,15]  #列的序号,从0开始
df.drop(df.columns[x], axis=1, inplace=True)

7 总行数、总列数:

Rows = df.shape[0] #行数Cols = df.shape[1] #列数

8 求某列最大值

df_max = max(df['连板']) 

9 去除1列中的空格:

df['流通市值'] = df['流通市值'].str.strip(); #去除1列中的空格

 10 将list类型转换为string类型:

text= ' '.join(map(str,list))

 11 数值修改及替换

Python中使用replace函数实现数据替换。

数据表中city字段上海存在两种写法,分别为shanghai和SH。

我们使用replace函数对SH进行替换。

df['city'].replace('SH', 'shanghai')

12 数据表合并

首先是对不同的数据表进行合并,我们这里创建一个新的数据表df1,并将df和df1两个数据表进行合并。

在Python中可以通过merge函数一次性实现。

下面建立df1数据表,用于和df数据表进行合并。

★Pandas 零碎知识-LMLPHP

使用merge函数对两个数据表进行合并,合并的方式为inner,将两个数据表中共有的数据匹配到一起生成新的数据表。并命名为df_inner。

★Pandas 零碎知识-LMLPHP

13 设置索引列

完成数据表的合并后,我们对df_inner数据表设置索引列,索引列的功能很多,可以进行数据提取,汇总,也可以进行数据筛选等。

设置索引的函数为set_index.

★Pandas 零碎知识-LMLPHP

 14 删除某列包含特定字符的行

(为防止该列某行为空值而报错,应先填充,再一并删除)

#先填充空值行,为方便一并删除,填上'STST'
df['名称'].isnull().value_counts() #先查找
df['名称'] = df['名称'].fillna('STST') #再填充
#再去除STdf_ST = df[df['名称'].str.contains("ST")] #含有特定字符的行

df = df[-df['名称'].str.contains("ST")] #去除特定字符的行以后的新数据

  删除某列的特定字符串:

df['短线主题'] = df['短线主题'].str.replace('概念','')

 15 向DataFrame添加数据

df = df.append(df1) #添加

16 统计一共有多少种

con_num = len(set(df['概念板块'])) #统计“概念板块”这1列一共有多少种概念。

 17 设备索引字段

df = df.set_index('member_id')

18 两列合并,且添加分隔符

df['概念'] = df['概念板块'].str.cat(df['所属概念'],sep=';') 

   多列合并:

df['address'] = df['country']+df['province']+df['city']

如果某一列是非str类型的数据,那么我们需要用到map(str)将那一列数据类型做转换:

df["newColumn"] = df["age"].map(str) + df["phone"] + df["address”]

19 从一个Dataframe中减去一部分

df3 = df1.drop(labels=df2.axes[0]) #df2是df1的子集

20 指定列去重

df = df.drop_duplicates(['板块'])

 21 一列合并为一个文本

text= ("".join(i for i in df['所属概念'])) 

22 去掉列首、尾数字

#去掉首位数字——只去掉1位
df['涨停原因'] = df['涨停原因'].str.replace('^[0-9]','')
#去掉末位数字
df['涨停原因'] = df['涨停原因'].str.replace('[0-9]$','')
04-26 17:15