我有一个名为xiv的 Pandas DataFrame对象,该对象具有一列int64体积测量值。

In[]: xiv['Volume'].head(5)
Out[]:

0    252000
1    484000
2     62000
3    168000
4    232000
Name: Volume, dtype: int64

我还阅读了其他帖子(例如thisthis),这些帖子建议了以下解决方案。但是当我使用这两种方法时,它似乎都没有改 rebase 础数据的dtype:
In[]: xiv['Volume'] = pd.to_numeric(xiv['Volume'])

In[]: xiv['Volume'].dtypes
Out[]:
dtype('int64')

或者...
In[]: xiv['Volume'] = pd.to_numeric(xiv['Volume'])
Out[]: ###omitted for brevity###

In[]: xiv['Volume'].dtypes
Out[]:
dtype('int64')

In[]: xiv['Volume'] = xiv['Volume'].apply(pd.to_numeric)

In[]: xiv['Volume'].dtypes
Out[]:
dtype('int64')

我还尝试过制作一个单独的 Pandas Series,并使用该系列上面列出的方法,然后重新分配给x['Volume']对象,即pandas.core.series.Series对象。

但是,我已经使用numpy包的float64类型找到了解决此问题的方法-,此方法有效,但我不知道为什么它与不同。
In[]: xiv['Volume'] = xiv['Volume'].astype(np.float64)

In[]: xiv['Volume'].dtypes
Out[]:
dtype('float64')

有人可以解释如何使用pandas库完成numpy库似乎可以通过其float64类轻松完成的工作;也就是说,将xiv DataFrame中的列转换为适当的float64

最佳答案

如果您已经具有数字dtype(int8|16|32|64float64boolean),则可以使用 Pandas .astype()方法将其转换为另一个“数字” dtype。

演示:

In [90]: df = pd.DataFrame(np.random.randint(10**5,10**7,(5,3)),columns=list('abc'), dtype=np.int64)

In [91]: df
Out[91]:
         a        b        c
0  9059440  9590567  2076918
1  5861102  4566089  1947323
2  6636568   162770  2487991
3  6794572  5236903  5628779
4   470121  4044395  4546794

In [92]: df.dtypes
Out[92]:
a    int64
b    int64
c    int64
dtype: object

In [93]: df['a'] = df['a'].astype(float)

In [94]: df.dtypes
Out[94]:
a    float64
b      int64
c      int64
dtype: object

对于object(字符串)dtypes无效,无法将转换为数字:
In [95]: df.loc[1, 'b'] = 'XXXXXX'

In [96]: df
Out[96]:
           a        b        c
0  9059440.0  9590567  2076918
1  5861102.0   XXXXXX  1947323
2  6636568.0   162770  2487991
3  6794572.0  5236903  5628779
4   470121.0  4044395  4546794

In [97]: df.dtypes
Out[97]:
a    float64
b     object
c      int64
dtype: object

In [98]: df['b'].astype(float)
...
skipped
...
ValueError: could not convert string to float: 'XXXXXX'

所以在这里我们要使用pd.to_numeric()方法:
In [99]: df['b'] = pd.to_numeric(df['b'], errors='coerce')

In [100]: df
Out[100]:
           a          b        c
0  9059440.0  9590567.0  2076918
1  5861102.0        NaN  1947323
2  6636568.0   162770.0  2487991
3  6794572.0  5236903.0  5628779
4   470121.0  4044395.0  4546794

In [101]: df.dtypes
Out[101]:
a    float64
b    float64
c      int64
dtype: object

关于python - 什么时候在python中应用(pd.to_numeric)和何时astype(np.float64)?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/40095712/

10-14 02:18