我有一个很大的数据集(请参见下面的示例格式),我需要做以下思考:


确定出现在第1,2,5列上的重复值-如果全部重复,则我需要删除多余的行并取平均值第8列中的值(这对于我将发布的代码来说是成功的-
在第一步之后,我想将第1,2列的值四舍五入为整数(无小数)
我想重新介绍第3、4、6和7列-
第3、6和7列需要具有我要指定的特定值(例如3应该全部为0,6应该全部为1,第7列应该全部为1)(类似于输入文件)
第4列需要增加一,这取决于第4列中不同值的数量)(类似于输入文件


这是一个示例输入文件:data(文件名)

564991.15   7371277.89  0   1   1530    1   1   16.0225
564991.15   7371277.89  0   1   8250    1   1   14.4405
564991.15   7371277.89  0   2   1530    1   1   14.8637
564991.15   7371277.89  0   2   8250    1   1   14.8918
564991.17   7371277.89  0   3   1530    1   1   16.0002
564991.17   7371277.89  0   3   8250    1   1   15.4333
564991.04   7371276.76  0   4   1530    1   1   14.73
564991.04   7371276.76  0   4   8250    1   1   15.6138
564991.04   7371276.76  0   5   1530    1   1   16.2453
564991.04   7371276.76  0   5   8250    1   1   15.6138


这是我最了解的代码(目前我在calc中进行了补充)

import os
import numpy as np
import pandas as pd
datadirectory = '/media/data'
os.chdir = 'datadirectory'
df = pd.read_csv('/media/data/data.dat')
sorted_data = df.groupby(["X.1","X.2","X.5"])["X.8"].mean().reset_index()
tuple_data = [tuple(x) for x in sorted_data.values]
datas = np.asarray(tuple_data)
np.savetxt('sorted_data_rounded.dat', datas, fmt='%s', delimiter='\t')


但是他只给我4列,没有四舍五入的数据。

最佳答案

添加一半并强制转换astype int可能会更快一些:

df = pd.read_csv('data.dat', header=None, sep='\s+')

In [2]: df
Out[2]:
           0           1  2  3     4  5  6        7
0  564991.15  7371277.89  0  1  1530  1  1  16.0225
1  564991.15  7371277.89  0  1  8250  1  1  14.4405
2  564991.15  7371277.89  0  2  1530  1  1  14.8637
3  564991.15  7371277.89  0  2  8250  1  1  14.8918
4  564991.17  7371277.89  0  3  1530  1  1  16.0002
5  564991.17  7371277.89  0  3  8250  1  1  15.4333
6  564991.04  7371276.76  0  4  1530  1  1  14.7300
7  564991.04  7371276.76  0  4  8250  1  1  15.6138
8  564991.04  7371276.76  0  5  1530  1  1  16.2453
9  564991.04  7371276.76  0  5  8250  1  1  15.6138

df1 = df.groupby([0, 1, 4])[7].mean().reset_index()
df1['ints'] = (df1[7] + 0.5).astype(int)

In [5]: df1
Out[5]:
           0           1     4         7  ints
0  564991.04  7371276.76  1530  15.48765    15
1  564991.04  7371276.76  8250  15.61380    16
2  564991.15  7371277.89  1530  15.44310    15
3  564991.15  7371277.89  8250  14.66615    15
4  564991.17  7371277.89  1530  16.00020    16
5  564991.17  7371277.89  8250  15.43330    15


注意:您可以使用DataFrame方法to_csv保存DataFrame。

09-04 13:04
查看更多